Meta Princeton, LLM bağlamı için nihai çözümü öneriyor! Modelin özerk bir aracı haline gelmesine ve bağlam düğüm ağacını kendi başına okumasına izin verin
Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
LLM uzun bağlam modelleri için nihai çözüm nedir?
Princeton Üniversitesi ve Meta AI'daki araştırmacılar tarafından yakın zamanda önerilen bir çözüm, LLM'yi yinelemeli istemler aracılığıyla metnin nasıl okunacağına karar vermesini sağlayan etkileşimli bir aracı olarak düşünmektir.
Bildiri Adresi:
Uzun bağlamları bir özet düğümleri ağacına işleyebilen MemWalker adlı bir sistem tasarladılar.
Bir sorgu alındığında, model ilgili bilgileri bulmak ve yeterli bilgi topladığında yanıt vermek için bu düğüm ağacını alabilir. Uzun metin sorusu yanıtlama görevlerinde bu yöntem, uzun bağlam pencereleri, özyineleme ve alma kullanan temel yöntemden önemli ölçüde daha iyidir.
LeCun ayrıca araştırmaları için destek tweet'i attı.
MemWalker iki ana bölümden oluşur:
İlk önce hafıza ağacını oluşturmanız gerekir:
Uzun metni özet düğümlerine dilimleyin. Toplama düğümleri daha üst düzey düğümler halinde özetlenir ve sonunda köke ulaşır.
İkinci bölüm Navigasyon:
Sorguyu kabul ettikten sonra, LLM ilgili bilgileri bulmak ve uygun şekilde yanıt vermek için ağaçta gezinir. LLM bu süreci akıl yürütme yoluyla gerçekleştirir - belki de bir cevap bulmak için çalışmak, bir yolda daha ileri gitmeyi seçmek ya da kendini yanlış yönlendirilmiş bulmak ve aynı şekilde geri çekilmek.
Bu gezinti işlemi, sıfır örnek istemleriyle uygulanabilir ve belirtilen büyük dil modellerinden herhangi birine kolayca uyarlanabilir.
Araştırma ekibi, bu model tarafından oluşturulan bellek ağacının etkileşimli olarak okunmasıyla, MemWalker'ın özellikle daha uzun örnekler için diğer uzun bağlam taban çizgilerinden ve geri alma ve döngü varyantlarından daha iyi performans gösterdiğini gösterdi.
MemWalker'ın etkinliği iki temel bölüme bağlıdır:
Çalışma belleği boyutu - LLM, LLM'nin aldığı yol boyunca daha fazla bilgi edinmesine izin verirken daha iyi küresel bağlam yeteneklerine sahiptir.
2) LLM'nin akıl yürütme yeteneği - LLM çıkarım eşiğine ulaştığında, MemWalker etkilidir. Çıkarım yeteneği eşiğin altında olduğunda, navigasyon sırasındaki hata oranı yüksektir.
MEMWALKER: İNTERAKTİF BİR OKUYUCU**
Araştırma ekibi, uzun bağlam soru yanıtlama ile ilgili görevleri araştırır - uzun metin x ve sorgu q verildiğinde, modelin amacı bir yanıt r oluşturmaktır.
MEMWALKER IKI ADIMI TAKIP EDER:
Uzun bağlamların ağaç şeklindeki veri yapılarına bölündüğü bellek ağacı oluşturma. Bu yapı sorgulara dayanmaz, bu nedenle önceden dizi verileri varsa önceden hesaplanabilir.
Modelin bir sorgu aldığında bu yapıda gezindiği ve uygun bir yanıt formüle etmek için bilgi topladığı gezinme.
MEMWALKER, temeldeki LLM'ye erişimi varsayar ve LLM istemlerini yineleyerek yapı ve navigasyonu uygular.
Gezinti
Q sorgusunu aldıktan sonra, dil modeli kök düğümden kaldırılır
Bir yanıt oluşturmak için ağaçta gezinmeye başlayın.
LLM'de geçilen düğüm
, bir sonraki düğüm seviyesini gözlemler
Özeti.
LLM karar verdi
+ 1 eylemden birini seçin - Daha fazla inceleme için bir alt düğüm seçin veya üst düğüme dönün.
Yaprak düğümde
LLM iki eylemden birine karar verebilir: yaprak düğümü gönderin ve sorguya yanıt verin veya yaprak düğüm bilgi içeriyorsa
(yani
) yeterli değilse, üst düğüme dönün
。
Navigasyon kararları vermek için, araştırma ekibi LLM'den önce eylemi teşvik ederek doğal dilde bir gerekçe oluşturmasını ve ardından eylem seçiminin kendisini yapmasını isteyebilir.
Spesifik olarak, her düğümde, model bir yanıt r ∼ LLM(r | s, q), burada yanıt iki demetten biridir: 1) r = (akıl yürütme, eylem, cevap) LLM bir yaprak düğümdeyken veya 2) r = (akıl yürütme, eylem) LLM yaprak olmayan bir düğümde olduğunda.
Navigasyon İpuçları Tasarımı
Araştırma ekibi, sıfır örneklem istemleri ile LLM navigasyonunu etkinleştirdi. İhtiyacınız olan iki tür ipucu vardır:
Triyaj uçları ve 2) yaprak uçları (aşağıdaki tabloda vurgulanmıştır).
Önceliklendirme istemi sorguyu, alt düğümlerin bir özetini ve LLM'nin izlemesi gereken talimatları içerir. Yaprak olmayan düğümler için triyaj uçları kullanılır.
Yaprak istemi, paragraf içeriğini, sorguları (ve seçenekleri) ve LLM'nin bir yanıt oluşturmasını veya üst düğüme geri dönmesini gerektiren talimatları içerir.
Hem triyaj ipuçları hem de yaprak ipuçları, LLM'nin izlemesi gereken çıktı biçimini belirtir. Formata uyulmaması geçersiz eylemlere neden olur ve LLM'nin yeniden oluşturulması gerekir. LLM arka arkaya üç kez çözümlenebilir çıktı üretemezse, gezinme sonlandırılır ve "Cevap Yok" döndürür.
Çalışma Belleği
LLM ağacı almayı bitirdiğinde, bilgileri gezinme izinde tutabilir ve bağlama ekleyebilir.
Kesin olmak gerekirse, LLM ek çalışma belleği ile r ∼ LLM(r | s, q, m) yanıtı üretir
Boş veya daha önce ziyaret edilen düğümlerden içerik içeriyor.
Araştırma ekibi, LLM'nin bağlam penceresine sığabilmesi için çalışma belleğini kesti.
YUKARIDAKI TABLO, ÇALIŞMA BELLEĞI ARACILIĞIYLA KOMUT ISTEMINE ÇALIŞMA BELLEĞININ NASIL EKLENECEĞINI DE GÖSTERIR.
Deneysel yapılandırma
Veri Kümeleri ve Değerlendirmeler
Araştırma ekibi üç veri kümesi kullandı: SCROLLS kıyaslamasından gelen QuALITY, SummScreenFD ve GovReport. Araştırma ekibi, tüm veri kümelerinin doğruluğunu gösterdi.
Nitelik
QuALITY, çoktan seçmeli bir soru-cevap veri kümesidir.
Veri seti, Project Gutenberg'den uzun biçimli hikayeler ve insan açıklayıcılar tarafından açıklamalı sorular içerir. Araştırma ekibi, 187 örnekten oluşan bir alt küme kullanarak deney yaptı.
SummScreenFD
SummScreenFD, orijinal olarak özetleme için tasarlanmış TV ve film komut dosyalarından oluşan bir veri kümesidir.
Bu senaryolar oyuncular arasında diyaloglar şeklinde sunulur. Araştırma ekibi bu veri setini bir soru-cevap görevine dönüştürdü ve burada ham olarak sağlanan temel doğru özet metni, Stable Beluga 2 kullanılarak bir "kim" sorusu oluşturmak için kullanıldı ve daha sonra bir insan uzman tarafından kontrol edildi.
Orijinal uzun metinle eşleştirilen soru, yeniden konumlandırılmış 306 KG görevi örneği haline geldi.
Hükümet Raporu
GovReport veri seti, Kongre Araştırma Servisi ve ABD Hükümeti Sorumluluk Ofisi'nden alınan belgelerin yanı sıra uzmanlar tarafından sağlanan özetleri bir araya getirir.
Araştırma ekibi, bu veri setini SummScreenFD ile aynı şekilde 101 örnekle soru-cevap veri setine dönüştürdü.
Her üç veri kümesi de farklı uzunluklarda uzun bağlamlar, bazıları daha kısa örnekler ve bazıları daha uzun diziler ile karakterize edilir.
Bu nedenle, araştırma ekibi, daha zor ve daha uzun bağlam durumlarında bellek erişimini daha iyi değerlendirmek için hem orijinal veri kümesinde hem de her görevde yer alan daha uzun dizilerin bir alt kümesinde sonuçlar sundu.
Araştırma ekibi, deneylerinin çoğunda Stable Beluga 2'yi temel bir LLM olarak kullandı, çünkü araştırma ekibinin göstereceği diğer birçok LLM varyantına kıyasla son teknoloji performans sunuyor.
Stable Beluga 2, ince ayarın araştırma ekibinin değerlendirme göreviyle çakışmadığı 70B LLaMA-2 tabanlı bir talimat ayarlama modelidir.
Maksimum bağlam uzunluğu 4.096 jetondur. Araştırma ekibi, modeli daha fazla ince ayar yapmadan veya araştırma ekibinin bağlam içindeki görevine ilişkin az sayıda örnek vermeden sıfır atışlı bir şekilde kullandı.
Araştırma ekibi, bellek ağacı oluşturma için en iyi p-örneklemenin yanı sıra navigasyon oluşturmak için eylemler ve çıkarımlar kullandı.
Araştırma ekibi, QuALITY, SummScreenFD ve GovReport için maksimum düğüm sayısını, sırasıyla maxt Mt = 8, 5, 8 ve segment boyutu|c| olarak belirledi = 1000, 1000, 1200。
Kriter
Araştırma ekibi, aynı temel LLM'ye dayanan üç bellek teknolojisini Stable Beluga 2 ile karşılaştırdı:
Tam bağlam penceresi
Özyineleme
Geri Alma
Tam bağlam penceresi temeli, uzun giriş metnini ve oluşturmayı işlemek için 4.096 belirtecin tümünü kullanır. Veri kümesindeki örnekler genellikle bağlam sınırlarını aştığından, araştırma ekibi metnin sağını (en yakın) veya solunu (en az yakın) girdi olarak alarak uzunluğu kısalttı ve her iki yöntemi de değerlendirdi.
Araştırma ekibi, arama için sorgulara dayalı olarak uzun bağlamlardan paragraflar seçmek için Contriever'ı (Izacard ve diğerleri, 2022) kullandı. En yüksek puana sahip pasajlar, bağlamı doldurana kadar LLM'nin giriş bağlamında birleştirilir.
Son olarak, araştırma ekibi, her paragrafın 2.500 jeton ve maksimum özet boyutunun 500 jeton olduğu önceki paragraf belirteçlerinden mevcut bilgi paragrafına özet boyunca döngü yapan bir temel uyguladı.
Sonuçlar ve Analizler
Önemli Sonuçlar
Aşağıdaki Tablo 2, MEMWALKER ve diğer taban çizgileri arasındaki karşılaştırmayı göstermektedir.
MEMWALKER, TÜM GÖREVLERDE ÖZYINELEMELI TABAN ÇIZGISINI ÖNEMLI ÖLÇÜDE AŞTI.
Bu, sorguyla ilgili bilgilerin birkaç adımdan sonra kaybolduğu özyineleme sınırlamasını gösterir.
MEMWALKER AYRICA, PASAJLARIN AYRI BIR BELGEDEN ZIYADE TUTARLI, UZUN BIÇIMLI BIR HIKAYEDEN GELDIĞI ARAMANIN ÖTESINE GEÇER.
Bu görevlerde, tam bağlam temeli, görece kısa diziler içerebilen "ham" görev ayarında iyi performans gösterebilir, ancak en iyi performans için sol veya sağ kesmeyi seçmek veri kümesine bağlı gibi görünmektedir.
Bununla birlikte, QuALITY'deki sağ tutma değişkeni ve GovReport'taki sol tutma değişkeni dışında, MEMWALKER orijinal kurulumda tam bağlam taban çizgisinden daha yüksek performans elde eder, bu da veri kümesindeki konumsal önyargıdan kaynaklanabilir, ilgili paragrafların tipik olarak metnin başında veya sonunda göründüğü durumlarda.
BUNUNLA BIRLIKTE, HER ÜÇ GÖREVIN DE UZUN SÜRÜMLERINDE, MEMWALKER TÜM TABAN ÇIZGILERINI AŞTI, YANI BELLEK ERIŞIMI DAHA KRITIK HALE GELDIKÇE GÜÇLÜ PERFORMANS GÖSTERDI.
MEMWALKER ayrıca LongChat ve MPT dahil olmak üzere halka açık diğer modelleri de geride bırakıyor.
MEMWALKER, uzun sekanslarda performansı artırır. Araştırma ekibi, yukarıdaki Şekil 2'deki her bir görev için giriş dizisi uzunluğunun bir performans dökümünü sağladı.
METIN UZUNLUĞU DAHA KISA OLDUĞUNDA, MEMWALKER TAM BAĞLAM (SOL VEYA SAĞ KESME) TABAN ÇIZGISINDEN DAHA DÜŞÜKTÜR, ANCAK TÜM GÖREVLER IÇIN DAHA UZUN DIZILERDE HER IKI KESME TÜRÜNDEN DAHA IYI PERFORMANS GÖSTERIR.
Etkileşimli okumanın yararı, metin uzunluğundaki uygun artışın belirgin hale gelmesidir, yani dizi uzunluğu 4.096 LLM bağlam uzunluğundan önemli ölçüde büyük olduğunda daha iyi performans gösterilir.
Çıkarım, bellek ağacında gezinme için gereklidir.
MEMWALKER'IN ETKINLIĞI, BÜYÜK ÖLÇÜDE ALTTA YATAN LLM'NIN AKIL YÜRÜTME YETENEKLERINE BAĞLIDIR. Her navigasyon kararı için, araştırma ekibi, aşağıdaki Tablo 1'de gösterildiği gibi, LLM'den bir sonraki öngörülen eylemi haklı çıkarmak için önce doğal dilde bir gerekçe oluşturmasını isteyen bir LLM istemi kullandı.
Araştırma ekibi, aşağıdaki Tablo 3'te, Llama 2 Chat'i (13B ve 70B parametre varyantları) Stable Beluga 2 (70B) ile karşılaştırarak ve komut isteminden "Karar vermeden önce akıl yürütme..." satırını kaldırarak akıl yürütmenin performansı nasıl etkilediğini göstermektedir.
Daha küçük, daha az yetenekli modeller (13B) için, talimatlara uyulamaması nedeniyle performans 70B modellerin önemli ölçüde gerisinde kalmaktadır. Aslında, daha zayıf modeller için çıkarım gerekçeleri gerektirmek, belki de bu gerekçeleri oluşturamadıkları ve kullanamadıkları için performansı düşürebilir.
Stable Beluga 2, aynı LLM boyutundaki Llama 2 Chat'ten daha iyi performans gösterdi ve ayrıca gelişmiş akıl yürütme yetenekleri gösterdi.
Stable Beluga 2 için, tüm görevlerde gerekçelendirme gerektirmek performansı artırır. BU, MEMWALKER'IN ANA ÖZELLIĞINI VURGULAR: LLM, KRITIK AKIL YÜRÜTME YETENEĞI EŞIĞINI GEÇERSE, TURLAR ARASINDA HIZLI BIR ŞEKILDE HATA OLUŞTURMADAN BIRDEN FAZLA TURDA UZUN GIRDILER HAKKINDA AKIL YÜRÜTEBILIR.
İyi navigasyon kararları veremeyen zayıf LLM'ler için hatalar birikebilir ve genel performans bozulabilir.
LLM'NIN AKIL YÜRÜTME YETENEKLERI ÖNÜMÜZDEKI YILLARDA GELIŞMEYE DEVAM ETTIKÇE, ARAŞTIRMA EKIBI MEMWALKER GIBI YÖNTEMLERIN DAHA ETKILI HALE GELMESINI BEKLIYOR.
Bellek ağacında gezinmek için çalışma belleği gereklidir. MEMWALKER, BELLEK AĞACINDA GEZINMEYE VE ILGILI PARAGRAFLARI OKUMAYA KARAR VERDIĞINDE, GENEL BAĞLAM HAKKINDAKI BILGISINI KAYBEDEBILIR.
Bu nedenle, model, model bir sonraki yolu seçtiğinde çalışma belleğinin içeriğinin güncellendiği çalışma belleği olarak gezinme yolu boyunca düğümden bilgi taşır.
ARAŞTIRMA EKIBI, ÇALIŞMA BELLEĞI OLAN VEYA OLMAYAN MEMWALKER'IN PERFORMANSINI DEĞERLENDIRDI VE SONUÇLAR AŞAĞIDAKI ŞEKIL 3'TE GÖSTERILDI.
Araştırma ekibi, çalışma belleğinin tükenmesinin tüm görevlerde performansta önemli bir düşüşe neden olduğunu ve doğrulukta %5-13'lük bir düşüşle bu bileşenin önemini gösterdiğini buldu.
MEMWALKER yanlış yoldan kurtulabilir.
MEMWALKER BELLEK AĞACINDA GEZINIRKEN, YALNIZCA EN ALAKALI PARAGRAFLARA GIDEN YOLU BULMASI GEREKMEZ, AYNI ZAMANDA TÜM ALMA HATALARINDAN KURTULMASI DA GEREKEBILIR.
Araştırma ekibi, kurtarma istatistiklerini aşağıdaki Tablo 4'te sunmaktadır. MEMWALKER, örneklerin yaklaşık %15 - %20'sinde kurtarma gezinme işlemleri gerçekleştirir (ve bu nedenle yolları değiştirir), ancak bu örneklerde bunları QuALITY, SummScreenFD için %60 ve GovReport için ∼ %80'de doğru bir şekilde kurtarmak ve almak mümkündür.
MEMWALKER verimli okuma sağlar. MEMWALKER, UZUN METNIN HANGI BÖLÜMLERININ OKUNMASI GEREKTIĞINI BELIRLEDIĞINDEN, OKUNMASI GEREKEN YÜK TÜM DIZIDEN DAHA KÜÇÜK OLABILIR.
Araştırma ekibi, üç görevin her biri için aşağıdaki Şekil 4'te gösterildiği gibi, tüm örnekler için uzun bağlam okuma yüzdelerinin ortalamasını gösterir. Araştırma ekibi, ağaç düğümlerinin içeriği de dahil olmak üzere soruları yanıtlamak için ortalama olarak metnin yalnızca %63-69'unun okunması gerektiğini buldu.
Başarıya giden yolda, gerekli okuma %59 – %64'e düşürülür.
Bellek ağacı yapımı için ödünleşimler
Araştırma ekibi bellek ağacını oluşturduğunda, temel bir değiş tokuş ortaya çıkar - ağacın derinliğini azaltmak için daha büyük paragrafları düğümler halinde özetlemek, ancak potansiyel olarak içeriğin doğruluğunu kaybetmek.
Benzer şekilde, birçok alt düzey düğümü yukarıdaki düğümlere bağlamak, ağacı düzleştirmeye yardımcı olabilir, ancak her düğümdeki LLM gezinme görevlerini daha zor hale getirebilir.
Aşağıdaki Şekil 5, bellek ağacının farklı konfigürasyonlarının QuALITY üzerindeki performansını göstermektedir. Daha büyük paragrafları özetlemek, genellikle daha küçük paragrafları özetlemekten ve üst düğüme daha fazla alt düğüm bağlamaktan daha faydalıdır.
Bununla birlikte, maksimum düğüm sayısı arttıkça performans durağanlaştı ve bellek ağacı oluşturma sırasında düğümlere ne kadar bilgi paketlenebileceğinin ödünleşimini gösterdi.
Kaynaklar:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Meta Princeton, LLM bağlamı için nihai çözümü öneriyor! Modelin özerk bir aracı haline gelmesine ve bağlam düğüm ağacını kendi başına okumasına izin verin
Orijinal kaynak: Shin Ji Yuan
LLM uzun bağlam modelleri için nihai çözüm nedir?
Princeton Üniversitesi ve Meta AI'daki araştırmacılar tarafından yakın zamanda önerilen bir çözüm, LLM'yi yinelemeli istemler aracılığıyla metnin nasıl okunacağına karar vermesini sağlayan etkileşimli bir aracı olarak düşünmektir.
Uzun bağlamları bir özet düğümleri ağacına işleyebilen MemWalker adlı bir sistem tasarladılar.
Bir sorgu alındığında, model ilgili bilgileri bulmak ve yeterli bilgi topladığında yanıt vermek için bu düğüm ağacını alabilir. Uzun metin sorusu yanıtlama görevlerinde bu yöntem, uzun bağlam pencereleri, özyineleme ve alma kullanan temel yöntemden önemli ölçüde daha iyidir.
LeCun ayrıca araştırmaları için destek tweet'i attı.
İlk önce hafıza ağacını oluşturmanız gerekir:
Uzun metni özet düğümlerine dilimleyin. Toplama düğümleri daha üst düzey düğümler halinde özetlenir ve sonunda köke ulaşır.
Sorguyu kabul ettikten sonra, LLM ilgili bilgileri bulmak ve uygun şekilde yanıt vermek için ağaçta gezinir. LLM bu süreci akıl yürütme yoluyla gerçekleştirir - belki de bir cevap bulmak için çalışmak, bir yolda daha ileri gitmeyi seçmek ya da kendini yanlış yönlendirilmiş bulmak ve aynı şekilde geri çekilmek.
MemWalker'ın etkinliği iki temel bölüme bağlıdır:
Araştırma ekibi, uzun bağlam soru yanıtlama ile ilgili görevleri araştırır - uzun metin x ve sorgu q verildiğinde, modelin amacı bir yanıt r oluşturmaktır.
MEMWALKER IKI ADIMI TAKIP EDER:
Uzun bağlamların ağaç şeklindeki veri yapılarına bölündüğü bellek ağacı oluşturma. Bu yapı sorgulara dayanmaz, bu nedenle önceden dizi verileri varsa önceden hesaplanabilir.
Modelin bir sorgu aldığında bu yapıda gezindiği ve uygun bir yanıt formüle etmek için bilgi topladığı gezinme.
MEMWALKER, temeldeki LLM'ye erişimi varsayar ve LLM istemlerini yineleyerek yapı ve navigasyonu uygular.
Gezinti
Q sorgusunu aldıktan sonra, dil modeli kök düğümden kaldırılır
LLM'de geçilen düğüm
LLM karar verdi
Yaprak düğümde
(yani
Navigasyon kararları vermek için, araştırma ekibi LLM'den önce eylemi teşvik ederek doğal dilde bir gerekçe oluşturmasını ve ardından eylem seçiminin kendisini yapmasını isteyebilir.
Spesifik olarak, her düğümde, model bir yanıt r ∼ LLM(r | s, q), burada yanıt iki demetten biridir: 1) r = (akıl yürütme, eylem, cevap) LLM bir yaprak düğümdeyken veya 2) r = (akıl yürütme, eylem) LLM yaprak olmayan bir düğümde olduğunda.
Navigasyon İpuçları Tasarımı
Araştırma ekibi, sıfır örneklem istemleri ile LLM navigasyonunu etkinleştirdi. İhtiyacınız olan iki tür ipucu vardır:
Yaprak istemi, paragraf içeriğini, sorguları (ve seçenekleri) ve LLM'nin bir yanıt oluşturmasını veya üst düğüme geri dönmesini gerektiren talimatları içerir.
Hem triyaj ipuçları hem de yaprak ipuçları, LLM'nin izlemesi gereken çıktı biçimini belirtir. Formata uyulmaması geçersiz eylemlere neden olur ve LLM'nin yeniden oluşturulması gerekir. LLM arka arkaya üç kez çözümlenebilir çıktı üretemezse, gezinme sonlandırılır ve "Cevap Yok" döndürür.
Çalışma Belleği
LLM ağacı almayı bitirdiğinde, bilgileri gezinme izinde tutabilir ve bağlama ekleyebilir.
Kesin olmak gerekirse, LLM ek çalışma belleği ile r ∼ LLM(r | s, q, m) yanıtı üretir
Araştırma ekibi, LLM'nin bağlam penceresine sığabilmesi için çalışma belleğini kesti.
YUKARIDAKI TABLO, ÇALIŞMA BELLEĞI ARACILIĞIYLA KOMUT ISTEMINE ÇALIŞMA BELLEĞININ NASIL EKLENECEĞINI DE GÖSTERIR.
Deneysel yapılandırma
Veri Kümeleri ve Değerlendirmeler
Araştırma ekibi üç veri kümesi kullandı: SCROLLS kıyaslamasından gelen QuALITY, SummScreenFD ve GovReport. Araştırma ekibi, tüm veri kümelerinin doğruluğunu gösterdi.
Nitelik
QuALITY, çoktan seçmeli bir soru-cevap veri kümesidir.
Veri seti, Project Gutenberg'den uzun biçimli hikayeler ve insan açıklayıcılar tarafından açıklamalı sorular içerir. Araştırma ekibi, 187 örnekten oluşan bir alt küme kullanarak deney yaptı.
SummScreenFD
SummScreenFD, orijinal olarak özetleme için tasarlanmış TV ve film komut dosyalarından oluşan bir veri kümesidir.
Bu senaryolar oyuncular arasında diyaloglar şeklinde sunulur. Araştırma ekibi bu veri setini bir soru-cevap görevine dönüştürdü ve burada ham olarak sağlanan temel doğru özet metni, Stable Beluga 2 kullanılarak bir "kim" sorusu oluşturmak için kullanıldı ve daha sonra bir insan uzman tarafından kontrol edildi.
Orijinal uzun metinle eşleştirilen soru, yeniden konumlandırılmış 306 KG görevi örneği haline geldi.
Hükümet Raporu
GovReport veri seti, Kongre Araştırma Servisi ve ABD Hükümeti Sorumluluk Ofisi'nden alınan belgelerin yanı sıra uzmanlar tarafından sağlanan özetleri bir araya getirir.
Araştırma ekibi, bu veri setini SummScreenFD ile aynı şekilde 101 örnekle soru-cevap veri setine dönüştürdü.
Her üç veri kümesi de farklı uzunluklarda uzun bağlamlar, bazıları daha kısa örnekler ve bazıları daha uzun diziler ile karakterize edilir.
Bu nedenle, araştırma ekibi, daha zor ve daha uzun bağlam durumlarında bellek erişimini daha iyi değerlendirmek için hem orijinal veri kümesinde hem de her görevde yer alan daha uzun dizilerin bir alt kümesinde sonuçlar sundu.
Eşikler QuALITY'nin 8.000 token'si, SummScreenFD'nin 6.000 token'si ve GovReport'un 12.000 token'sidir.
Model
Araştırma ekibi, deneylerinin çoğunda Stable Beluga 2'yi temel bir LLM olarak kullandı, çünkü araştırma ekibinin göstereceği diğer birçok LLM varyantına kıyasla son teknoloji performans sunuyor.
Stable Beluga 2, ince ayarın araştırma ekibinin değerlendirme göreviyle çakışmadığı 70B LLaMA-2 tabanlı bir talimat ayarlama modelidir.
Maksimum bağlam uzunluğu 4.096 jetondur. Araştırma ekibi, modeli daha fazla ince ayar yapmadan veya araştırma ekibinin bağlam içindeki görevine ilişkin az sayıda örnek vermeden sıfır atışlı bir şekilde kullandı.
Araştırma ekibi, bellek ağacı oluşturma için en iyi p-örneklemenin yanı sıra navigasyon oluşturmak için eylemler ve çıkarımlar kullandı.
Araştırma ekibi, QuALITY, SummScreenFD ve GovReport için maksimum düğüm sayısını, sırasıyla maxt Mt = 8, 5, 8 ve segment boyutu|c| olarak belirledi = 1000, 1000, 1200。
Kriter
Araştırma ekibi, aynı temel LLM'ye dayanan üç bellek teknolojisini Stable Beluga 2 ile karşılaştırdı:
Tam bağlam penceresi
Özyineleme
Geri Alma
Tam bağlam penceresi temeli, uzun giriş metnini ve oluşturmayı işlemek için 4.096 belirtecin tümünü kullanır. Veri kümesindeki örnekler genellikle bağlam sınırlarını aştığından, araştırma ekibi metnin sağını (en yakın) veya solunu (en az yakın) girdi olarak alarak uzunluğu kısalttı ve her iki yöntemi de değerlendirdi.
Araştırma ekibi, arama için sorgulara dayalı olarak uzun bağlamlardan paragraflar seçmek için Contriever'ı (Izacard ve diğerleri, 2022) kullandı. En yüksek puana sahip pasajlar, bağlamı doldurana kadar LLM'nin giriş bağlamında birleştirilir.
Son olarak, araştırma ekibi, her paragrafın 2.500 jeton ve maksimum özet boyutunun 500 jeton olduğu önceki paragraf belirteçlerinden mevcut bilgi paragrafına özet boyunca döngü yapan bir temel uyguladı.
Sonuçlar ve Analizler
Önemli Sonuçlar
Aşağıdaki Tablo 2, MEMWALKER ve diğer taban çizgileri arasındaki karşılaştırmayı göstermektedir.
Bu, sorguyla ilgili bilgilerin birkaç adımdan sonra kaybolduğu özyineleme sınırlamasını gösterir.
MEMWALKER AYRICA, PASAJLARIN AYRI BIR BELGEDEN ZIYADE TUTARLI, UZUN BIÇIMLI BIR HIKAYEDEN GELDIĞI ARAMANIN ÖTESINE GEÇER.
Bu görevlerde, tam bağlam temeli, görece kısa diziler içerebilen "ham" görev ayarında iyi performans gösterebilir, ancak en iyi performans için sol veya sağ kesmeyi seçmek veri kümesine bağlı gibi görünmektedir.
Bununla birlikte, QuALITY'deki sağ tutma değişkeni ve GovReport'taki sol tutma değişkeni dışında, MEMWALKER orijinal kurulumda tam bağlam taban çizgisinden daha yüksek performans elde eder, bu da veri kümesindeki konumsal önyargıdan kaynaklanabilir, ilgili paragrafların tipik olarak metnin başında veya sonunda göründüğü durumlarda.
BUNUNLA BIRLIKTE, HER ÜÇ GÖREVIN DE UZUN SÜRÜMLERINDE, MEMWALKER TÜM TABAN ÇIZGILERINI AŞTI, YANI BELLEK ERIŞIMI DAHA KRITIK HALE GELDIKÇE GÜÇLÜ PERFORMANS GÖSTERDI.
MEMWALKER ayrıca LongChat ve MPT dahil olmak üzere halka açık diğer modelleri de geride bırakıyor.
METIN UZUNLUĞU DAHA KISA OLDUĞUNDA, MEMWALKER TAM BAĞLAM (SOL VEYA SAĞ KESME) TABAN ÇIZGISINDEN DAHA DÜŞÜKTÜR, ANCAK TÜM GÖREVLER IÇIN DAHA UZUN DIZILERDE HER IKI KESME TÜRÜNDEN DAHA IYI PERFORMANS GÖSTERIR.
Etkileşimli okumanın yararı, metin uzunluğundaki uygun artışın belirgin hale gelmesidir, yani dizi uzunluğu 4.096 LLM bağlam uzunluğundan önemli ölçüde büyük olduğunda daha iyi performans gösterilir.
Çıkarım, bellek ağacında gezinme için gereklidir.
MEMWALKER'IN ETKINLIĞI, BÜYÜK ÖLÇÜDE ALTTA YATAN LLM'NIN AKIL YÜRÜTME YETENEKLERINE BAĞLIDIR. Her navigasyon kararı için, araştırma ekibi, aşağıdaki Tablo 1'de gösterildiği gibi, LLM'den bir sonraki öngörülen eylemi haklı çıkarmak için önce doğal dilde bir gerekçe oluşturmasını isteyen bir LLM istemi kullandı.
Stable Beluga 2, aynı LLM boyutundaki Llama 2 Chat'ten daha iyi performans gösterdi ve ayrıca gelişmiş akıl yürütme yetenekleri gösterdi.
Stable Beluga 2 için, tüm görevlerde gerekçelendirme gerektirmek performansı artırır. BU, MEMWALKER'IN ANA ÖZELLIĞINI VURGULAR: LLM, KRITIK AKIL YÜRÜTME YETENEĞI EŞIĞINI GEÇERSE, TURLAR ARASINDA HIZLI BIR ŞEKILDE HATA OLUŞTURMADAN BIRDEN FAZLA TURDA UZUN GIRDILER HAKKINDA AKIL YÜRÜTEBILIR.
İyi navigasyon kararları veremeyen zayıf LLM'ler için hatalar birikebilir ve genel performans bozulabilir.
LLM'NIN AKIL YÜRÜTME YETENEKLERI ÖNÜMÜZDEKI YILLARDA GELIŞMEYE DEVAM ETTIKÇE, ARAŞTIRMA EKIBI MEMWALKER GIBI YÖNTEMLERIN DAHA ETKILI HALE GELMESINI BEKLIYOR.
Bellek ağacında gezinmek için çalışma belleği gereklidir. MEMWALKER, BELLEK AĞACINDA GEZINMEYE VE ILGILI PARAGRAFLARI OKUMAYA KARAR VERDIĞINDE, GENEL BAĞLAM HAKKINDAKI BILGISINI KAYBEDEBILIR.
Bu nedenle, model, model bir sonraki yolu seçtiğinde çalışma belleğinin içeriğinin güncellendiği çalışma belleği olarak gezinme yolu boyunca düğümden bilgi taşır.
ARAŞTIRMA EKIBI, ÇALIŞMA BELLEĞI OLAN VEYA OLMAYAN MEMWALKER'IN PERFORMANSINI DEĞERLENDIRDI VE SONUÇLAR AŞAĞIDAKI ŞEKIL 3'TE GÖSTERILDI.
MEMWALKER yanlış yoldan kurtulabilir.
MEMWALKER BELLEK AĞACINDA GEZINIRKEN, YALNIZCA EN ALAKALI PARAGRAFLARA GIDEN YOLU BULMASI GEREKMEZ, AYNI ZAMANDA TÜM ALMA HATALARINDAN KURTULMASI DA GEREKEBILIR.
Araştırma ekibi, kurtarma istatistiklerini aşağıdaki Tablo 4'te sunmaktadır. MEMWALKER, örneklerin yaklaşık %15 - %20'sinde kurtarma gezinme işlemleri gerçekleştirir (ve bu nedenle yolları değiştirir), ancak bu örneklerde bunları QuALITY, SummScreenFD için %60 ve GovReport için ∼ %80'de doğru bir şekilde kurtarmak ve almak mümkündür.
Araştırma ekibi, üç görevin her biri için aşağıdaki Şekil 4'te gösterildiği gibi, tüm örnekler için uzun bağlam okuma yüzdelerinin ortalamasını gösterir. Araştırma ekibi, ağaç düğümlerinin içeriği de dahil olmak üzere soruları yanıtlamak için ortalama olarak metnin yalnızca %63-69'unun okunması gerektiğini buldu.
Bellek ağacı yapımı için ödünleşimler
Araştırma ekibi bellek ağacını oluşturduğunda, temel bir değiş tokuş ortaya çıkar - ağacın derinliğini azaltmak için daha büyük paragrafları düğümler halinde özetlemek, ancak potansiyel olarak içeriğin doğruluğunu kaybetmek.
Benzer şekilde, birçok alt düzey düğümü yukarıdaki düğümlere bağlamak, ağacı düzleştirmeye yardımcı olabilir, ancak her düğümdeki LLM gezinme görevlerini daha zor hale getirebilir.
Aşağıdaki Şekil 5, bellek ağacının farklı konfigürasyonlarının QuALITY üzerindeki performansını göstermektedir. Daha büyük paragrafları özetlemek, genellikle daha küçük paragrafları özetlemekten ve üst düğüme daha fazla alt düğüm bağlamaktan daha faydalıdır.
Bununla birlikte, maksimum düğüm sayısı arttıkça performans durağanlaştı ve bellek ağacı oluşturma sırasında düğümlere ne kadar bilgi paketlenebileceğinin ödünleşimini gösterdi.