Okumak, bilgi deposunun anlaşılması, derinlemesine analizi ve büyük modellerin ardındaki çıkarım anlamına gelmez

Kaynak: Makinenin Kalbi

Modelin boyutu arttıkça insanlar, büyük modellerin büyük miktarda bilgiye nasıl hakim olabileceğini keşfetmeye başlar. Bir görüşe göre bunun "kayıpsız sıkıştırma" nedeniyle olduğu, yani modelin kapsamlı bir eğitime tabi tutulduğu ve tahmin doğruluğunu artırmak için daha fazla içeriği ezberlediği yönündedir. Ancak "kayıpsız sıkıştırma" gerçekten büyük modellerin bu bilgiyi anlamasına izin verebilir mi? Zhu Zeyuan (MetaAI) ve Li Yuanzhi (MBZUAI) tarafından yapılan son araştırma "Dil Modeli Fiziği Bölüm 3.1: Bilgi Depolama ve Erişim" bu konuyu derinlemesine araştırıyor.

Kağıt adresi:

İnsanla ilgili olarak "Bir kitabı yüz defa okuyun, anlamı kendiliğinden ortaya çıkar" diye bir söz vardır. Bu cümle her bilgi için geçerli olmasa da basit bilgi için ilgili kitapları hatırlayabildiğimiz sürece ilgili sorulara rahatlıkla cevap verebiliriz. Örneğin, "Sessiz Gece Düşünceleri" adlı kadim şiiri hatırladığımız sürece, "Şiirdeki ay ışığı neye benzemektedir?" sorusunu kolaylıkla yanıtlayabiliriz; "Chu Shi Biao/Yaratıcı Arka Plan" hakkındaki paragrafı hatırladığımız sürece. Baidu Ansiklopedisi'nde "Chu Shi Biao" ne zaman yaratıldı?" sorusuna kolaylıkla cevap verebiliriz. Peki daha büyük modeller aynı şeyi yapabilir mi?

Şekil 1: GPT-4 ile bilgi çıkarmanın bazı örnekleri (soldaki resim ChatGPT, sağdaki resim API'dir)

GPT-4 soruyla ilgili paragrafları anlayıp tekrarlayabilse de neden insanlar gibi basit sorulara cevap veremiyor? Bunun nedeni modelin yeterince büyük olmaması mı, belleğin yetersiz olması mı, yoksa eğitim sonrası yapılan ince ayarın yeterli olmaması mı? hiç biri! Makale, bir doğal dil modelinin yeterince büyük, yeterince uzun süre eğitilmiş ve yeterince ince ayar yapılmış olsa bile, insanların basit olduğunu düşündüğü soruları yanıtlayamayabileceğine dikkat çekiyor. Bunun altında yatan neden, bilginin ön eğitim verilerinde sunulma şekliyle ilgilidir. Aynı bilginin eğitim öncesi veri setinde birden çok kez görünmesi gerekir ve ince ayar sonrasında çıkarılmasının daha kolay olması için yeterli "çeşitliliğe" sahip olması gerekir.

Bunu doğrulamak için, iki yazar 100.000 biyografi içeren bir veri seti oluşturdu. Her karakter, kişinin adını ve altı sabit özelliği içeren bir biyografi girişine sahiptir: doğum tarihi, doğum yeri, üniversite bölümü, üniversite adı ve iş yeri, işveren. BioS ve BioR olmak üzere iki veri seti tasarladılar. BioS'nin her cümlesi 50 sabit şablondan seçildi ve BioR, daha gerçekçi ve çeşitli olan LLaMA-30B ile yeniden yazıldı. İki veri setinin sonuçları tutarlıdır.BioS'yi örnek alarak örnek bir giriş aşağıda gösterilmiştir:

Anya Briar Forger, 2 Ekim 1996'da doğdu. İlk yıllarını Princeton, NJ'de geçirdi. MIT'deki öğretim üyelerinden mentorluk ve rehberlik aldı. Eğitimini İletişim odaklı olarak tamamladı. Meta Platformlarda profesyonel rol üstlendi. Menlo Park, CA'da çalıştı

şekil 2

Bir doğal dil modeli, 100 bin kişisel otobiyografi üzerinde mükemmel bir şekilde önceden eğitilmiş (önceden eğitilmiş) olsa bile, QA ince ayarı (ince ayar) yoluyla "Anya lisans için hangi okula gitti" sorusuna doğru bir şekilde cevap veremeyecektir. Şekil 2'de gösterildiği gibi QA ince ayar eğitim verileri olarak 50 bin kişi kullanılsa ve LoRA dahil çeşitli ince ayar yöntemleri denense bile modelin kalan 50 bin kişi üzerindeki doğruluğu yalnızca %10'dur. 682M modeli (kişi sayısından 7000 kat daha büyük) 1350 kez kullanılıp eğitilmesine ve hatta yazarın WikiBook gibi standart NLP eğitim öncesi verilerini eklemesine rağmen doğruluk oranı artmadı. "Mucizelerin büyük bir güçle" gerçekleşmediği görülüyor.

Bu nedenle, büyük modellerin "kayıpsız sıkıştırma" bilgisini mutlaka yakalaması veya çıkarması gerekmez. Peki GPT-4 bilgiye nasıl hakim oluyor? Bu sorunu incelemek için iki yazar ön eğitim setinde değişiklikler yaptı; yazarlar buna bilgi geliştirme adını verdiler:

  1. Çeşitlilik - multiM: Farklı anlatım dilleri kullanarak ancak aynı bilgileri koruyarak her kişi için M biyografi girişi oluşturun (her cümle için toplam 100 anlatım yöntemi vardır ve her biyografinin her cümlesi bunlardan birini seçer)

  2. Rastgele düzenleme - değiştirme: Biyografik cümleleri rastgele düzenleyin

  3. Tam ad - tam ad: Biyografideki tüm zamirleri, soyadlarını ve adları tam adla değiştirin

Yazarlar orijinal veri seti bioS'yi tek olarak adlandırdılar ve bilgi geliştirmelerinin 15 kombinasyonunu denediler. Örneğin bioS multi5+permute her kişinin 5 biyografisinin olması ve kelime sırasının bozulması anlamına gelir. İşte bioS multi5+permute'un bir örneği:

Anya Briar Forger, Princeton, NJ'den doğmuştur. Çalışmalarını İletişime adadı. Menlo Park, CA'da iş deneyimi kazandı. Kariyerini Meta Platformlarda geliştirdi. 2 Ekim 1996'da bu dünyaya geldi. MIT'de ileri düzey kurslara katıldı.

Hem insanlar hem de büyük modeller için bioS single ve bioS multi5+permute'un neredeyse eşit derecede zor olduğunu unutmayın (aynı miktarda bilgiye sahiptirler ve her cümle 50 şablondan seçilmiştir). Peki, bilgiyle zenginleştirilmiş bu yeni veri seti üzerinde ön eğitim yapılırsa ve ardından QA'ya ince ayar yapılırsa yeni bir performans olacak mı?

resim 3

Şekil 3, bioS tekli önceden eğitilmiş modelin QA doğruluk oranının yalnızca %9,7 olduğunu, bioS multi5+permute önceden eğitilmiş modelin doğruluk oranının ise %96,6 kadar yüksek olduğunu göstermektedir. Bu önemli gelişmenin modelin ince ayarıyla, boyutuyla veya eğitim süresiyle hiçbir ilgisi yoktur; ancak bilginin ön eğitimde nasıl sunulduğu, yani bilginin büyük model tarafından nasıl "okunduğu" ile ilgilidir.

Çalışma aynı zamanda, biyografileri ünlüler ve azınlık gruplarına bölerek, ünlülerin biyografisinde bilgi artışı olduğu sürece, azınlık grubu olmasa bile, modelin azınlık grubu için bilgi çıkarımının doğruluğunun büyük ölçüde artacağını da buldu. , en iyisi Etki hala tüm verilerle ilgili bilginin geliştirilmesini gerektiriyor.

Şekil 4: Ünlülere yönelik eğitim verilerinin çeşitliliğinin arttırılmasıyla, azınlık gruplara yönelik bilgi çıkarmanın doğruluğu da artıyor

Peki modelin soru cevaplama yeteneği farklı verileri okuduktan sonra neden büyük ölçüde değişiyor? Ünlülerin biyografilerinin tekrar tekrar okunması neden azınlık gruplarının bilgi edinme yeteneğini geliştirebilir? Bunun nedeni modellerin farklı hafıza yöntemlerini benimsemesidir.

Yazar, iki doğrusal araştırma yoluyla modelin hafıza bilgisi ilkesini derinlemesine araştırıyor. P-sondalama adı verilen bir yönteme bakalım.

P-probe'da, önceden eğitilmiş modele biyografik girişler giriyoruz ve altı hedef özelliği (üniversite, bölüm vb. gibi) tahmin etmek için doğrusal bir sınıflandırıcı eğitiyoruz. Modelin bu bilgiyi niteliklerden daha önce çıkarıp çıkaramayacağını görmek istedik. Sınıflandırıcı, kişinin adının hemen ardından gelen "iş birimi" için yüksek bir doğruluk gösteriyorsa bu, modelin "Anya'nın işvereninin Meta olduğunu" doğrudan öğrendiği anlamına gelir. Yüksek doğruluk yalnızca biyografinin sonunda elde ediliyorsa, model "birinin doğum günü 2 Ekim 1996, üniversite MIT, dolayısıyla işveren Meta" gibi hatalı bir hafıza yöntemi kullanıyor olabilir.

P probu için deney tasarımı aşağıdaki gibidir. Her biyografide 6 özelliğin ilk göründüğü konumları bulun ve ardından bu konumlardan hemen önceki konumdaki her hedef özelliği tahmin etmek için doğrusal bir sınıflandırıcı eğitin. Bunun sonucunda 36 sınıflandırma görevi ortaya çıktı.

*Şekil 5: P prob testi sonuçları, eğitim öncesi veri setindeki bilgi geliştirmenin, bilginin daha erken konumlarda depolanmasına neden olduğunu ve hatta bazılarının doğrudan kişilerin adlarında saklandığını göstermektedir. Modelin ince ayar yoluyla soruları yanıtlayıp yanıtlayamayacağı, bilginin eğitim öncesi sırasında doğrudan kişinin adında saklanıp saklanmadığıyla ilgilidir (Şekil 3 ve Şekil 5'i karşılaştırın). *

P-probe testinin sonuçları, doğal dil modelinin, ön eğitim sırasında sıkıştırmayı sağlamak için insanların adları aracılığıyla bilgileri hatırlayabildiğini ve ayrıca diğer bilgileri de ("MIT'de eğitim görmüş bir kişinin çalışma birimi ve doğum günü 2 Ekim 1996 ..." anısı. İkinci bellek yöntemi insanlar için "doğal olmayan" bir yöntem olsa da, iki yöntemin sıkıştırma oranları model için aynıdır. Model bilgiyi hatırlamak için ikinci yöntemi kullanırsa eğitim sonrasında ince ayar yaparak sorulara cevap veremeyecektir. Bilgi geliştirme yoluyla, önceden eğitilmiş model yavaş yavaş ilk hafıza yöntemini kullanmayı öğrenme eğiliminde olacaktır.

Yukarıdaki "bilgi çıkarma" başarısızlığının GPT gibi otoregresif dil modellerinin tek yönlü yapısından kaynaklanabileceği iddia edilebilir. Aslında, BERT gibi çift yönlü dil modelleri bilgi çıkarma konusunda daha da kötüdür, yalnızca "Meta Platform" gibi çok sözcüklü bilgileri depolayabilirler ancak çıkaramazlar. İlgilenen okuyucular makalenin 6. Bölümüne başvurabilirler.

Genel olarak dil modelinin "bilgi çıkarma" sorusuna cevap verip veremeyeceği yalnızca "kayıpsız sıkıştırmaya" değil aynı zamanda "modelde nasıl sıkıştırılacağına" da bağlıdır. Makale, eğitim öncesi süreçte (birden fazla yeniden yazma için ChatGPT'nin kullanılması gibi) önemli ancak nadir verilere ilişkin bilginin geliştirilmesinin gerekli olduğunu vurgulamaktadır. Bu adım olmadan, ince ayar üzerinde ne kadar çok çalışırsanız çalışın, önceden eğitilmiş model eğitim verilerini kayıpsız bir şekilde sıkıştırmış olsa da, yine de bu bilgiyi çıkaramayabilir!

Çözüm

Doğal dil modellerinin nasıl çalıştığını nasıl anlayabilirim? Çoğu araştırmacı, GPT-4 gibi modellerle konuşarak yetenekleri hakkında spekülasyon yapıyor. Bununla birlikte, "Dil Modeli Fiziği" makale serisinin yazarı, Transformer'ın iç mekanizmasını keşfetmek ve dikkatle tasarlanmış eğitim verileri ve kontrollü deneyler yoluyla AI görevlerini yerine getirme yeteneğini açıklamak için daha kesin bir yöntem önerdi.

"Bölüm 3.1: Bilgi Depolama ve Çıkarma" bölümünde yazar, modelin farklı verilere verdiği yanıtı doğru bir şekilde test etti ve modelin öğrenme bilgisi ve yeteneği ile eğitim verileri arasındaki doğru ilişkiyi buldu.

Ayrıca modelin belirli durumlarda bilgiyi nasıl çalıştırdığını daha detaylı incelemek için "Bölüm 3.2: Bilginin İşleyişi"ni yayınladılar. Örneğin, büyük model "Sessiz Gece Düşünceleri"ni hatırlıyorsa, "Sessiz Gece Düşünceleri"nin son cümlesinin "Başınızı eğip memleketinizi özleyin" olduğu sonucunu çıkaracak şekilde ince ayar yapılabilir mi? Takip raporlarını yakında sizlerle buluşturacağız.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)