Popüler Yapısız Dil Büyük Modelleri Nasıl Çalışır?

Question

**Derleme: OneFlow****Önce Tim Lee,Sean Trott**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-201b1f5314-dd1a6f-1c6801) *Resim kaynağı: Unbounded AI tarafından oluşturulmuştur*Büyük dil modeli dahili olarak tam olarak nasıl çalışır? Bu makale minimum matematik ve terminoloji ile açıklamaktadır.Bu makalenin yazarı Tim Lee, eskiden teknoloji medyası Ars Technica'da çalışıyordu ve yakın zamanda, esas olarak yapay zekanın çalışma prensibini tartışan bir "Yapay Zekayı Anlamak" adlı bir Haber Bülteni yayınladı. Sean Trott, San Diego'daki California Üniversitesi'nde yardımcı doçenttir ve burada insan dilini anlama ve dil modelleri üzerine çalışmaktadır. (Aşağıdaki içerik OneFlow tarafından onaylandıktan sonra derlenir ve yayınlanır, lütfen yeniden yazdırma yetkisi almak için OneFlow ile iletişime geçin. Orijinal metin:ChatGPT geçen sonbaharda kullanıma sunulduğunda, teknoloji endüstrisinde ve tüm dünyada bir heyecan yarattı. O zamanlar, makine öğrenimi araştırmacıları yıllardır büyük dil modelleri (LLM'ler) geliştirmeye çalışıyorlardı, ancak genel halk bunların ne kadar güçlü hale geldiklerini pek dikkate almadı veya anlamadı.Bugün, neredeyse herkes LLM'leri duymuş ve on milyonlarca insan bunları kullanmıştır, ancak bunların nasıl çalıştığını pek kimse anlamamıştır. LLM'lerin "sonraki kelimeyi tahmin etmek" için eğitildiğini ve bunu yapmak için çok fazla metin gerektirdiğini duymuş olabilirsiniz. Ancak, açıklamalar genellikle burada durur. Bir sonraki kelimeyi nasıl tahmin ettiklerinin ayrıntıları genellikle ezoterik bir bulmaca olarak ele alınır.Bunun bir nedeni, bu sistemlerin farklı bir şekilde geliştirilmiş olmasıdır. Tipik yazılımlar, bilgisayara net, adım adım yönergeler sağlayan insan mühendisler tarafından yazılır. Buna karşın ChatGPT, milyarlarca dil sözcüğü kullanılarak eğitilmiş bir sinir ağı üzerine kuruludur.Bu nedenle, dünyadaki hiç kimse LLM'nin iç işleyişini tam olarak anlamıyor. Araştırmacılar bu modelleri anlamaya çalışmak için çok çalışıyorlar, ancak bu, tamamlanması on yıllar değilse de yıllar alan yavaş bir süreçtir.Ancak, uzmanlar bu sistemlerin nasıl çalıştığı hakkında epeyce bilgi sahibidir. Bu makalenin amacı, bu bilgiyi geniş bir kitleye açmaktır. Teknik jargona veya ileri matematiğe girmeden bu modellerin iç işleyişi hakkında bilinenleri açıklamaya çalışacağız.Dil modelleri için dili temsil etmenin ve akıl yürütmenin şaşırtıcı bir yolu olan sözcük vektörlerini açıklayarak başlayacağız. Ardından, ChatGPT gibi model oluşturmanın mihenk taşı olan Transformers'a geçeceğiz. Son olarak, bu modellerin nasıl eğitildiğini açıklıyoruz ve büyük miktarda veriyle neden iyi performansın elde edilebileceğini araştırıyoruz.## kelime vektörüDil modellerinin nasıl çalıştığını anlamak için öncelikle onların kelimeleri nasıl temsil ettiğini anlamanız gerekir. İnsanlar, kediler için CAT gibi İngilizce kelimeleri temsil etmek için harf dizilerini kullanır. Dil modelleri, sözcük vektörleri adı verilen uzun bir sayı listesi kullanır. Örneğin, bir kediyi vektör olarak temsil etmenin bir yolu:[0,0074, 0,0030, -0,0105, 0,0742, 0,0765, -0,0011, 0,0265, 0,0106, 0,0191, 0,0038, -0,0468, -0,0212, 0,0091, 0,0030, -0,0563, -0 .0396, -0.0998, -0.0796, …, 0.0002](not: tam vektör uzunluğu aslında 300 sayıdır)Neden bu kadar karmaşık bir notasyon kullanıyorsunuz? İşte bir benzetme, Washington DC 38.9 derece kuzey enleminde ve 77 derece batı boylamında yer alıyor ve bunu vektör notasyonuyla temsil edebiliriz:• Washington DC'nin koordinatları [38.9, 77] şeklindedir.• New York'un koordinatları [40.7, 74] şeklindedir.• Londra'nın koordinatları [51.5, 0.1] şeklindedir.• Paris'in koordinatları [48.9, -2.4] şeklindedir.Bu, uzamsal ilişkiler hakkında muhakeme yapmak için kullanışlıdır. New York'un Washington DC'ye çok yakın olduğunu görebilirsiniz çünkü koordinatlarda 38.9, 40.7'ye ve 77, 74'e daha yakındır. Aynı şekilde Paris de Londra'ya çok yakın. Ancak Paris, Washington, DC'den çok uzak.Dil modelleri benzer bir yaklaşım benimser: her kelime vektörü, benzer anlamlara sahip kelimelerin birbirine daha yakın yerleştirildiği bir "kelime uzayında" bir noktayı temsil eder. Örneğin, vektör uzayında kedilere en yakın kelimeler köpek, kedi yavrusu ve evcil hayvanı içerir. Kelimeleri gerçek sayıların vektörleri olarak temsil etmenin önemli bir avantajı ("CAT" gibi harf dizilerinin aksine), harflerin yapamadığı işlemleri sayıların yapabilmesidir.Kelimeler sadece iki boyutta temsil edilemeyecek kadar karmaşıktır, bu nedenle dil modelleri yüzlerce hatta binlerce boyutlu vektör uzaylarını kullanır. İnsanlar bu kadar büyük boyutlu alanları hayal edemezler, ancak bilgisayarlar bunlar hakkında akıl yürütebilir ve faydalı sonuçlar üretebilir.Araştırmacılar onlarca yıldır kelime vektörleri üzerinde çalışıyorlar, ancak kavram gerçekten ilgiyi 2013'te Google'ın word2vec projesini duyurmasıyla kazandı. Google, hangi kelimelerin benzer cümlelerde görünme eğiliminde olduğunu bulmak için Google Haberler'den toplanan milyonlarca dokümanı analiz etti. Zamanla, eğitilmiş bir sinir ağı, benzer kategorilerdeki (köpek ve kedi gibi) kelimeleri vektör uzayında yan yana yerleştirmeyi öğrenir.Google'ın kelime vektörlerinin başka bir ilginç özelliği daha vardır: kelimeleri "anlamak" için vektör işlemlerini kullanabilirsiniz. Örneğin, Google araştırmacıları en büyük (en büyük) vektörü alır, büyük (büyük) vektörü çıkarır ve küçük (küçük) vektörü toplar. Ortaya çıkan vektöre en yakın kelime en küçük (en küçük) vektördür.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a3739e74-dd1a6f-1c6801) Bir analoji için vektör işlemlerini kullanabilirsiniz! Bu örnekte, büyük ile en büyük arasındaki ilişki, küçük ile en küçük arasındaki ilişkiye benzer. Google'ın kelime vektörleri diğer birçok ilişkiyi yakalar:• İsviçre, İsviçre için, Kamboçyalı Kamboçya için neyse odur. (Uyruğu Olunan Ülke)• Paris ve Fransa, Berlin ve Almanya'ya benzer. (başkent)• Ahlaksız ve ahlaki, mümkün ve imkansıza benzer. (zıt anlamlı)• Fare (fareler) ve fareler (farelerin çoğulu), dolara (dolar) ve dolara (doların çoğulu) benzerdir. (çoğul hali)• Erkekler ve kadınlar krallar ve kraliçeler gibidir. (cinsiyet rolü)Bu vektörler, insanların dili kullanma biçiminden oluşturuldukları için, insan dilinde var olan pek çok önyargıyı yansıtırlar. Örneğin, bazı kelime yerleştirme modellerinde (doktor) eksi (erkek) artı (kadın) eşittir (hemşire). Bu önyargıyı azaltmak yeni bir araştırma alanıdır.Bununla birlikte, sözcükler arasındaki ince ama önemli ilişkisel bilgileri kodladıkları için, sözcük yerleştirmeleri dil modelleri için yararlı bir temeldir. Bir dil modeli kediler hakkında bir şeyler öğrenirse (örneğin, bazen veterinere gider), aynı şey muhtemelen kedi yavruları veya köpekler için de geçerli olacaktır. Model, Paris ve Fransa arasındaki ilişkiyi (örneğin, aynı dili paylaştıklarını) öğrendiyse, o zaman Berlin ve Almanya ile Roma ve İtalya arasındaki ilişkinin aynı olması muhtemeldir.## Kelimenin anlamı bağlama bağlıdırBunun gibi basit kelime gömme şemaları, doğal dilin önemli bir gerçeğini yakalayamaz: kelimelerin genellikle birden fazla anlamı vardır.Örneğin, "banka" kelimesi bir finans kuruluşuna veya bir nehir kıyısına atıfta bulunabilir. Veya aşağıdaki cümleleri göz önünde bulundurun:• John bir dergi alır (John bir dergi alır).• Susan bir dergide çalışıyor (Susan bir dergide çalışıyor).Bu cümlelerde "dergi"nin anlamı birbiriyle bağlantılı fakat farklıdır. John, fiziksel bir dergi aldı ve Susan, fiziksel dergiler yayınlayan bir ajansta çalıştı.Bir kelimenin ilgisiz iki anlamı olduğunda, dilbilimciler bunlara eş anlamlılar adını verir. Bir kelimenin "dergi" gibi birbiriyle yakından ilişkili iki anlamı olduğunda, dilbilimciler buna çok anlamlılık derler.ChatGPT gibi dil modelleri, kelimenin geçtiği bağlama bağlı olarak aynı kelimeyi farklı vektörlerle temsil edebilir. "Banka (finansal kurum)" için bir vektör ve "banka (nehir kıyısı)" için bir vektör vardır. "Dergi (varlık yayını)" için bir vektör ve "dergi (yayın kurumu)" için bir vektör vardır. Tahmin edebileceğiniz gibi, dil modeli çok anlamlı kelimelerin anlamları için daha fazla benzer olan ve sesteş sözcüklerin anlamları için daha az benzer olan vektörler kullanır.Şimdiye kadar dil modellerinin bunu nasıl yaptığını açıklamadık - buna yakında geleceğiz. Ancak, dil modellerinin nasıl çalıştığını anlamak için önemli olan bu vektör temsillerini detaylandırıyoruz.Geleneksel yazılımlar, açık verilerle çalışacak şekilde tasarlanmıştır. Bir bilgisayardan "2+3"ü hesaplamasını isterseniz, 2, + veya 3'ün ne anlama geldiği konusunda hiçbir belirsizlik yoktur. Ancak doğal dildeki belirsizlik, eş anlamlılıkların ve çok anlamlılığın çok ötesine geçer:• "Müşteri tamirciden arabasını tamir etmesini istedi" ifadesinde "onun" müşteriyi mi yoksa tamirciyi mi kastediyor?• “Profesör öğrenciyi ödevini yapmaya teşvik etti” ifadesinde “o” profesörü mü yoksa öğrenciyi mi kastediyor?• "Meyve muz gibi uçar" ifadesinde "sinekler" bir fiil mi (muz gibi gökyüzünde uçan bir meyveye atıfta bulunularak) veya bir isimdir (muz gibi meyve sineklerine atıfta bulunularak)?İnsanlar bu tür belirsizliği bağlama bağlı olarak çözerler, ancak basit veya net kurallar yoktur. Aksine, dünyada gerçekte neler olup bittiğinin anlaşılmasını gerektirir. Tamircilerin genellikle müşterilerin arabalarını tamir ettiğini, öğrencilerin genellikle kendi ödevlerini yaptıklarını ve meyvelerin genellikle uçmadığını bilmeniz gerekir.Kelime vektörleri, dil modellerinin belirli bir paragraf bağlamında her kelimenin tam anlamını temsil etmesi için esnek bir yol sağlar. Şimdi bunu nasıl yaptıklarına bakalım.## Kelime vektörlerini kelime tahminlerine dönüştürünChatGPT'nin orijinal sürümünün arkasındaki GPT-3 modeli, düzinelerce sinir ağı katmanından oluşur. Her katman girdi olarak bir vektör dizisini (giriş metnindeki her kelime için bir tane) alır ve o kelimenin anlamını netleştirmeye ve bir sonraki kelimeyi daha iyi tahmin etmeye yardımcı olacak bilgileri ekler.Basit bir örnekle başlayalım.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fc040d7a89-dd1a6f-1c6801) LLM'nin her katmanı bir Dönüştürücüdür. 2017'de Google, bu sinir ağı yapısını ilk kez bir dönüm noktası belgesinde tanıttı.Grafiğin alt kısmında, modele giriş metni "John, bankasının nakde çevirmesini istiyor" şeklindedir ve bu kelimeler word2vec tarzı vektörler olarak temsil edilir ve ilk Transformer'a iletilir. Bu Dönüştürücü, hem want hem de cash'in fiil olduğunu belirler (bu iki kelime isim de olabilir). Bu ek bağlamı parantez içinde kırmızı metinle belirtiyoruz, ancak model aslında bu bilgiyi kelime vektörlerini insanların yorumlaması zor bir şekilde değiştirerek saklıyor. Bu yeni vektörlere gizli durumlar denir ve bir sonraki Transformatöre iletilir.İkinci Dönüştürücü iki bağlamsal bilgi daha ekler: bankanın bir nehir kıyısından ziyade bir finans kurumuna (finansal kurum) atıfta bulunduğunu ve onun John zamirine atıfta bulunduğunu açıklığa kavuşturur. İkinci Transformatör, modelin önceden öğrendiği tüm bilgileri yansıtan başka bir gizli durum vektörleri seti üretir.Yukarıdaki grafik tamamen varsayımsal bir LLM'yi göstermektedir, bu nedenle ayrıntılara fazla takılmayın. Gerçek LLM'ler daha fazla katmana sahip olma eğilimindedir. Örneğin, GPT-3'ün en güçlü versiyonu 96 katmana sahiptir.Araştırmalar gösteriyor ki (ilk birkaç katman cümlenin gramerini anlamaya ve yukarıda gösterilen belirsizlikleri çözmeye odaklanır. Sonraki katmanlar (diyagram boyutunu yönetilebilir tutmak için yukarıda gösterilmemiştir) tüm paragrafın üst düzey anlaşılmasına adanmıştır.Örneğin, LLM bir kısa hikaye "okuduğunda", hikayenin karakterleri hakkında her türlü bilgiyi hatırlıyor gibi görünüyor: cinsiyet ve yaş, diğer karakterlerle ilişkiler, geçmiş ve şimdiki yerler, kişilikler ve hedefler ve daha fazlası.Araştırmacılar, LLM'lerin bu bilgileri nasıl takip ettiğini tam olarak anlamıyorlar, ancak mantıksal olarak, bilgilerin gizli durum vektörlerini değiştirerek katmanlar arasında iletilmesi gerekiyor. Modern LLM'deki vektör boyutu son derece büyüktür ve bu da daha zengin semantik bilgileri ifade etmeye elverişlidir.Örneğin, GPT-3'ün en güçlü sürümü, 12288 boyutlu kelime vektörlerini kullanır, yani her kelime 12288 sayıdan oluşan bir liste ile temsil edilir. Bu, Google tarafından 2013 yılında önerilen word2vec şemasından 20 kat daha büyüktür. Tüm bu ekstra boyutları, GPT-3'ün her kelimenin içeriğini kaydetmek için kullanabileceği bir tür "karalama alanı" olarak düşünebilirsiniz. Daha önceki katmanlar tarafından yapılan bilgilendirici notlar, daha sonraki katmanlar tarafından okunabilir ve değiştirilebilir, bu da modelin tüm metni anlamasını kademeli olarak derinleştirmesine olanak tanır.Öyleyse, 1000 kelimelik bir hikayeyi yorumlamak için 96 katmanlı bir dil modelini açıklamak için yukarıdaki diyagramı değiştirdiğimizi varsayalım. Seviye 60, John için parantez içinde "(Kahraman, erkek, Minnesota'dan Cheryl, Donald'ın kuzeni Cheryl ile evli, şu anda Boise'de, kayıp cüzdanını bulmaya çalışıyor)" ile gösterilen bir vektör içerebilir. Yine, tüm bu gerçekler (ve muhtemelen daha fazlası), John kelimesine karşılık gelen 12288 sayıdan oluşan bir listede kodlanacaktır. Veya bu hikayedeki bazı bilgiler Cheryl, Donald, Boise, cüzdan veya başka bir deyişle 12288 boyutlu bir vektörde kodlanmış olabilir.Bunun amacı, ağın 96. ve son katmanının, bir sonraki kelimeyi tahmin etmek için gerekli tüm bilgileri içeren bir gizli durum çıktısına sahip olmaktır.## Dikkat MekanizmasıŞimdi her bir Transformatörün içinde neler olduğu hakkında konuşalım. Giriş paragrafındaki her kelimenin gizli durumunu güncellerken Transformer'ın iki işlemi vardır:1. Dikkat adımı sırasında, kelime dağarcığı, ilgili bir bağlama sahip olan ve birbirleriyle bilgi paylaşan diğer kelimeler için "etrafa bakar".2. İleri besleme adımında, her kelime bir önceki dikkat adımında toplanan bilgiler hakkında "düşünür" ve bir sonraki kelimeyi tahmin etmeye çalışır.Elbette bu adımları gerçekleştiren tek tek kelimeler değil, ağdır. Ancak Transformer'ın bu analizin temel birimi olarak tüm cümleleri veya paragrafları değil, kelimeleri kullandığını vurgulamak için bu şekilde belirtiyoruz. Bu yaklaşım, LLM'nin modern GPU yongalarının büyük ölçüde paralel işleme özelliklerinden tam olarak yararlanmasını sağlar. Ayrıca LLM'nin binlerce kelime içeren uzun paragraflara ölçeklenmesine yardımcı olur. Bu iki yön, erken dönem dil modellerinin karşılaştığı zorluklardır.Dikkat mekanizmasını kelimeler arasında bir eşleştirme hizmeti olarak düşünebilirsiniz. Her kelime, aradığı kelimelerin özelliklerini açıklayan bir kontrol listesi (sorgu vektörü olarak adlandırılır) oluşturur. Her kelime ayrıca kendi özelliklerini açıklayan bir kontrol listesi (anahtar vektörü olarak adlandırılır) oluşturur. Sinir ağı, her bir anahtar vektörü her bir sorgu vektörüyle karşılaştırarak (nokta çarpımı hesaplayarak) en iyi eşleşen kelimeyi bulur. Bir eşleşme bulunduğunda, ilgili bilgiyi anahtar vektörü oluşturan kelimeden sorgu vektörünü üreten kelimeye iletir.Örneğin, önceki bölümde, "John, bankasının nakde çevirmesini istiyor" cümlesinin bir bölümünde "onun" ifadesinin "John" anlamına geldiğini bulan varsayımsal bir Transformer modeli gösterdik. Dahili olarak, süreç şuna benzer bir şey olabilir: "onun" için bir sorgu vektörü etkili bir şekilde "arıyorum: erkekleri tanımlayan isimler" olarak temsil edilebilir. "John" için anahtar bir vektör etkili bir şekilde "Ben bir erkeği tanımlayan bir ismim" şeklinde ifade edilebilir. Ağ, bu iki vektörün eşleştiğini tespit edecek ve "John" vektörü hakkındaki bilgileri "onun" vektörüne aktaracaktır.Her dikkat katmanının birkaç "dikkat kafası" vardır, bu da bu bilgi alışverişi sürecinin her katmanda birden çok kez (paralel olarak) gerçekleştiği anlamına gelir. Her dikkat kafası farklı bir göreve odaklanır:• Bir dikkat başlığı, daha önce tartıştığımız gibi zamirleri isimlerle eşleştirebilir.• Başka bir dikkat başlığı, "banka" gibi çok anlamlı sözcüklerin anlamlarının çözümlenmesini sağlayabilir.• Üçüncü bir dikkat sorumlusu, "Joe Biden" gibi iki kelimelik ifadeler arasında bağlantı kurabilir.Bunlar gibi dikkat başlıkları, bir dikkat katmanındaki bir dikkat işleminin bir sonraki katmandaki bir dikkat kafası için girdi haline gelmesinin sonucu olarak, genellikle sıralı olarak çalışır. Aslında, az önce sıraladığımız görevlerin her biri, yalnızca bir değil, birden fazla dikkat gerektirebilir.GPT-3'ün en büyük sürümü 96 katmana sahiptir ve her katmanda 96 dikkat başlığı vardır, bu nedenle her yeni kelime tahmin edildiğinde GPT-3 9216 dikkat işlemi gerçekleştirir.## Gerçek dünyadan bir örnekYukarıdaki iki bölümde, dikkat kafalarının nasıl çalıştığının idealize edilmiş versiyonlarını gösterdik. Şimdi gerçek dil modellerinin iç işleyişine ilişkin araştırmaya bakalım.Geçen yıl Redwood Research'teki araştırmacılar, ChatGPT'nin öncülü olan GPT-2'yi "Mary ve John mağazaya gittiklerinde, John bir içki verdi (Mary ve John mağazaya gittiğinde, John bir içki verdi)" pasajı için inceledi. ) "Bir sonraki kelimeyi tahmin etme süreci.GPT-2, bir sonraki kelimenin Mary olduğunu tahmin eder. Araştırmacılar, bu tahmine üç tür dikkat kafasının katkıda bulunduğunu buldu:• İsim Taşıyıcı Kafa dedikleri üç dikkat kafası, Mary vektöründen son girdi vektörüne (to kelimesinin vektörü) bilgi kopyalar. GPT-2, bir sonraki kelimeyi tahmin etmek için bu en sağdaki vektördeki bilgileri kullanır.• Sinir ağı Mary'nin kopyalanacak doğru kelime olduğuna nasıl karar verir? GPT-2'nin hesaplama sürecini tersine çeviren bilim adamları, ikinci John vektörünü işaretleyen ve hareket eden başın John adını kopyalamasını önleyen, Özne Engelleme Başlığı (Özne Engelleme Başlığı) adını verdikleri dört dikkat başlığı seti keşfettiler.• Konu bastırma kafası, John'un kopyalanmaması gerektiğini nasıl biliyor? Ekip daha fazla tahminde bulundu ve Duplicate Token Heads adını verdikleri iki dikkat kafası keşfetti. İkinci John vektörünü birinci John vektörünün kopyası olarak işaretlerler, bu da deneğin John'un kopyalanmaması gerektiğine karar vermesi için kafasını bastırmasına yardımcı olur.Kısacası, bu dokuz dikkat kafası, GPT-2'nin "John, John'a bir içki verdi" ifadesinin bir anlam ifade etmediğini anlamasına ve bunun yerine "John, Mary'ye bir içki verdi (John, Mary'ye bir içki verdi)" seçeneğini seçmesine izin verir.Bu örnek, LLM'yi tam olarak anlamanın ne kadar zor olabileceğini göstermektedir. Beş araştırmacıdan oluşan bir Redwood ekibi, bu dikkat başlıklarını nasıl belirlediklerini ve doğruladıklarını açıklayan 25 sayfalık bir makale yayınladı. Bununla birlikte, tüm bu çalışmalara rağmen, GPT-2'nin neden bir sonraki kelime olarak "Mary" kelimesini tahmin etmeye karar verdiğinin tam olarak açıklanmasından hala çok uzağız.Örneğin, model bir sonraki kelimenin başka türden bir kelime değil de birinin adı olması gerektiğini nasıl biliyor? Benzer cümlelerde Mary'nin bir sonraki tahminde bulunmayacağını hayal etmek kolaydır. Örneğin, "Mary ve John restorana gittiklerinde, John anahtarlarını verdi (Mary ve John restorana gittiğinde, John anahtarları verdi)" cümlesinde mantıksal olarak bir sonraki kelime "vale" olmalıdır ( park görevlisini temsil eden)".Bilgisayar bilimcileri tarafından yeterince araştırma yapıldığını varsayarsak, GPT-2'nin muhakeme sürecindeki diğer adımları ortaya çıkarabilir ve açıklayabilirler. Sonunda, GPT-2'nin cümledeki en olası sonraki kelimenin "Mary" olduğuna nasıl karar verdiğini tam olarak anlayabilirler. Ancak bir kelimenin nasıl tahmin edildiğini anlamak aylar hatta yıllar alabilir.ChatGPT'nin (GPT-3 ve GPT-4) arkasındaki dil modelleri, GPT-2'den daha büyük ve daha karmaşıktır ve Redwood ekibinin incelediği basit cümlelerden daha karmaşık akıl yürütme görevleri yapabilirler. Bu nedenle, bu sistemleri tam olarak açıklama işi çok büyük bir proje olacak ve insanların bunu kısa sürede tamamlaması pek olası değil.## İleri besleme adımıDikkat kafası kelime vektörleri arasında bilgi aktardıktan sonra, ileri beslemeli ağ her kelime vektörü hakkında "düşünür" ve bir sonraki kelimeyi tahmin etmeye çalışır. Bu aşamada kelimeler arasında bilgi alışverişi yapılmaz ve ileri besleme katmanı her bir kelimeyi bağımsız olarak analiz eder. Bununla birlikte, ileri beslemeli katmanlar, daha önce dikkat başkanları tarafından kopyalanan herhangi bir bilgiye erişebilir. GPT-3'ün en büyük sürümünün ileri beslemeli katman yapısı aşağıdadır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e54b30f8cf-dd1a6f-1c6801) Yeşil ve mor daireler nöronları temsil eder: girdilerinin ağırlıklı bir toplamını hesaplayan matematiksel işlevlerdir.İleri besleme katmanı, çok sayıda bağlantısı nedeniyle güçlüdür. Bu ağı çıkış katmanı olarak üç nöron ve gizli katman olarak altı nöron kullanarak çiziyoruz, ancak GPT-3'ün ileri besleme katmanı çok daha büyük: çıkış katmanında 12288 nöron (modelin 12288 boyutlu kelime vektörüne karşılık geliyor) , gizli katmanda 49152 nöron vardır.Yani GPT-3'ün en büyük versiyonunda gizli katman 49152 nörona sahip, her nöron 12288 giriş değerine sahip (yani her nöron 12288 ağırlık parametresine sahip) ve ayrıca 12288 çıkış nöronu var, her Nöron 49152 giriş değerine sahip ​(böylece nöron başına 49152 ağırlık parametresi). Bu, her ileri besleme katmanının 49152\*12288+12288\*49152=1,2 milyar ağırlık parametresine sahip olduğu anlamına gelir. Ve 96 ileri besleme katmanı, toplam 1,2 milyar\*96=116 milyar parametre var! Bu, 175 milyar parametreli GPT-3'ün parametre hacminin yaklaşık üçte ikisine eşdeğerdir.2020 tarihli bir makalede (içinde, Tel Aviv Üniversitesi'nden araştırmacılar, ileri beslemeli katmanların model eşleştirme ile çalıştığını buldular: gizli katmandaki her nöron, giriş metnindeki belirli bir modelle eşleşir. Aşağıda 16 katmanlı bir sürüm bulunmaktadır. GPT'deki bazı nöronlar- 2 deseni eşleştirin:• Katman 1'deki nöronlar "ikameler" ile biten kelime dizilerini eşleştirir.• 6. katmandaki nöronlar, askeri ile ilgili olan ve "üs" veya "üs" ile biten kelime dizilerini eşleştirir.• "15:00 ile 19:00 arasında" veya "Cuma günü 19:00'dan" gibi bir zaman aralığıyla biten 13. katmandaki nöronlar eşleşir.• "Orijinal NBC gündüz versiyonu, arşivlendi" veya "zaman gecikmesi bu bölümün izlenme oranını yüzde 57 artırdı" gibi TV şovuyla ilişkili 16. katman maç dizilerindeki nöronlar.Gördüğünüz gibi sonraki katmanlarda şema daha soyut hale geliyor. İlk katmanlar belirli sözcükleri eşleştirme eğilimindeyken, sonraki katmanlar TV şovları veya zaman aralıkları gibi daha geniş semantik kategorilere giren ifadeleri eşleştirir.Bu ilginç çünkü daha önce belirtildiği gibi ileri besleme katmanı bir seferde yalnızca bir kelimeyi kontrol edebilir. Bu nedenle, "Orijinal NBC gündüz yayını, arşivlendi" dizisini "TV ile ilgili" olarak sınıflandırırken, NBC veya gündüz gibi kelimelere değil, yalnızca "arşivlendi" kelimesi için vektörlere erişebilir. İleri besleme katmanının "arşivlenmiş"in TV ile ilgili dizinin bir parçası olduğuna karar vermesinin nedeninin, dikkat kafasının daha önce bağlamsal bilgiyi "arşivlenmiş" vektöre taşıması olduğu sonucuna varılabilir.Bir nöron kalıplardan biriyle eşleştiğinde, kelime vektörüne bilgi ekler. Bu bilgiyi yorumlamak her zaman kolay olmasa da çoğu durumda bunu bir sonraki kelimenin geçici bir tahmini olarak düşünebilirsiniz.## Vektör İşlemlerini Kullanarak İleri Beslemeli Ağların ÇıkarımıBrown Üniversitesi'nde yapılan son araştırma (ileri besleme katmanlarının bir sonraki kelimeyi tahmin etmeye nasıl yardımcı olabileceğinin zarif bir örneğini gösteriyor. Google'ın vektör işlemleri kullanılarak analojik akıl yürütmenin yapılabileceğini gösteren word2vec araştırmasını daha önce tartışmıştık. Örneğin, Berlin - Almanya + Fransa = Paris .Brown Üniversitesi araştırmacıları, ileri beslemeli katmanların bazen bir sonraki kelimeyi tahmin etmek için bu doğru yöntemi kullandığını buldu. Örneğin, aşağıdaki istemlere verilen GPT-2 yanıtlarını incelediler: "Soru: Fransa'nın başkenti neresidir? Yanıt: Paris. Soru: Polonya'nın başkenti neresidir? Yanıt:"Ekip, GPT-2'nin 24 katmanlı bir sürümünü inceledi. Her katmandan sonra, Brown Üniversitesi bilim adamları, bir sonraki belirteç için en iyi tahminine bakarak modeli incelediler. İlk 15 katmanda, en yüksek olasılıkla tahmin, görünüşte rastgele bir kelimedir. Model, 16. ve 19. katmanlar arasında, bir sonraki kelimenin Lehçe olduğunu tahmin etmeye başlar; bu yanlıştır, ancak giderek yaklaşır. Ardından, 20. aşamada, en yüksek olasılıklı tahmin, doğru cevap olan Varşova olur ve son dört aşama için aynı kalır.Brown Üniversitesi'ndeki araştırmacılar, 20. bir ileri besleme katmanının, ülke vektörlerini karşılık gelen başkentlere eşleyen bir vektör ekleyerek Polonya'yı Varşova'ya dönüştürdüğünü buldu. Aynı vektörü Çin'e eklerken, cevap Pekin'i alır.Aynı modeldeki bir ileri besleme katmanı, küçük kelimeleri büyük harflere ve şimdiki zamanda bulunan kelimeleri geçmiş zaman eşdeğerlerine dönüştürmek için vektör işlemlerini kullanır.## Dikkat katmanı ve ileri besleme katmanının farklı işlevleri vardırŞimdiye kadar, GPT-2 kelime tahmininin iki pratik örneğini gördük: dikkat kafası, John'un Mary'ye bir içki vereceğini tahmin etmeye yardımcı olur; ileri besleme katmanı, Varşova'nın Polonya'nın başkenti olduğunu tahmin etmeye yardımcı olur.İlk durumda, Mary kullanıcı tarafından sağlanan bir bilgi isteminden gelir. Ancak ikinci durumda, istemde Varşova görünmedi. Bunun yerine GPT-2'nin Varşova'nın Polonya'nın başkenti olduğunu "hatırlaması" gerekiyordu ve bu bilgi eğitim verilerinden öğrenildi.Brown Üniversitesi araştırmacıları, Polonya'yı Varşova'ya çeviren ileri besleme katmanını devre dışı bıraktığında, model artık bir sonraki kelimenin Varşova olduğunu tahmin etmiyordu. Ancak ilginç bir şekilde, daha sonra istemin başına "Polonya'nın başkenti Varşova'dır" cümlesini ekleseler, GPT-2 soruyu tekrar cevaplayabildi. Bunun nedeni, GPT-2'nin Varşova adını işaretten çıkarmak için bir dikkat mekanizması kullanması olabilir.Bu işbölümü kendini daha geniş bir şekilde gösterir: dikkat mekanizması, ipucunun önceki bölümlerinden bilgi alırken, ileri besleme katmanı, dil modelinin ipucunda görünmeyen bilgileri "hatırlamasına" olanak tanır.Aslında, bir ileri besleme katmanı, modelin eğitim verilerinden öğrendiği bir bilgi veritabanı olarak düşünülebilir. İlk ileri beslemeli katmanların, "Trump genellikle Donald'dan sonra gelir" gibi belirli kelimelerle ilgili basit gerçekleri kodlama olasılığı daha yüksektir. Daha sonraki katmanlar, "bir ülkeyi başkentine dönüştürmek için bu vektörü ekleyin" gibi daha karmaşık ilişkileri kodlar.## Dil modeli eğitim yöntemiBirçok eski makine öğrenimi algoritması, insan tarafından etiketlenmiş eğitim örnekleri gerektiriyordu. Örneğin, eğitim verileri, yapay etiketlere ("köpek" veya "kedi") sahip köpeklerin veya kedilerin fotoğrafları olabilir. Etiketli verilere duyulan ihtiyaç, güçlü modelleri eğitmek için yeterince büyük veri kümeleri oluşturmayı zorlaştırır ve pahalı hale getirir.LLM'lerin önemli bir yeniliği, açıkça etiketlenmiş verilere ihtiyaç duymamalarıdır. Bunun yerine, bir metin pasajında sonraki kelimeyi tahmin etmeye çalışarak öğrenirler. Wikipedia sayfalarından haber makalelerine ve bilgisayar koduna kadar hemen hemen her türlü yazılı materyal bu modelleri eğitmek için uygundur.Örneğin, bir LLM "Kahvemi kremalı severim ve (Kahvemi kremalı severim ve)" girdisini alabilir ve bir sonraki kelime olarak "şeker (şeker)" tahmin etmeye çalışabilir. Yeni başlatılan bir dil modeli bu konuda korkunçtur çünkü ağırlık parametrelerinin her biri (GPT-3'ün en güçlü sürümü 175 milyar parametre kadar yüksektir) başlangıçta temelde rastgele bir sayı ile başlar.Ancak model daha fazla örnek (yüz milyarlarca kelime) gördükçe, bu ağırlıklar daha iyi tahminler yapmak için kademeli olarak ayarlanır.Bu sürecin nasıl çalıştığını göstermek için bir analoji kullanalım. Diyelim ki duş alıyorsunuz ve suyun doğru sıcaklıkta olmasını istiyorsunuz: ne çok sıcak ne de çok soğuk. Bu musluğu daha önce hiç kullanmadığınız için musluk kolunun yönünü istediğiniz gibi ayarlıyor ve suyun sıcaklığını hissediyorsunuz. Çok sıcak veya çok soğuksa, kolu ters yöne çevirirsiniz ve uygun su sıcaklığına yaklaştıkça kolda ne kadar az ayarlama yaparsanız, o kadar az ayarlama yaparsınız.Şimdi bu benzetmede birkaç değişiklik yapalım. İlk olarak, her biri "the", "cat" veya "banka" gibi farklı bir kelimeye karşılık gelen 50.257 tıklama olduğunu hayal edin. Amacınız sadece dizideki bir sonraki kelimeye karşılık gelen musluktan su akıtmaktır.İkincisi, musluğun arkasında birbirine bağlı bir grup boru ve bu boruların üzerinde bir grup valf var. Yani su yanlış musluktan geliyorsa, musluğun üzerindeki düğmeyi öylece ayarlayamazsınız. Her borunun izini sürmeleri ve yol boyunca buldukları her vanayı ayarlamaları için zeki sincaplardan oluşan bir ordu gönderirsiniz.Bu karmaşık bir hal alır ve aynı boru genellikle birden çok musluğu beslediğinden, hangi vanaların ne kadar sıkılıp gevşetileceğinin nasıl ve ne kadar sıkılacağı konusunda dikkatli düşünmek gerekir.Açıkçası, bu örnek kelimesi kelimesine alındığında gülünç hale geliyor. 175 milyar vanadan oluşan bir boru hattı ağı oluşturmak ne gerçekçi ne de kullanışlıdır. Ancak Moore Yasası sayesinde bilgisayarlar bu ölçekte çalışabilir ve çalışmaktadır.Şimdiye kadar, LLM'nin bu makalede ele alınan tüm bölümleri (ileri besleme katmanındaki nöronlar ve bağlam bilgisini sözcükler arasında ileten dikkat kafaları) bir dizi basit matematiksel işlev (esas olarak matris çarpımı) olarak uygulanmıştır. ayarlanabilir bir ağırlık parametresi tarafından belirlenir. Tıpkı benim hikayemdeki sincabın vanayı gevşeterek suyun akışını kontrol etmesi gibi, eğitim algoritması da dil modelinin ağırlık parametrelerini artırarak veya azaltarak sinir ağı aracılığıyla bilgi akışını kontrol eder.Eğitim süreci iki adıma ayrılmıştır. Önce suyu açarak ve suyun doğru musluktan gelip gelmediğini kontrol ederek bir "ileri geçiş" yapın. Su daha sonra, sincapların her bir borudan aşağıya doğru koşturarak valfleri sıktığı veya gevşettiği bir "geri geçiş" için kapatılır. Dijital sinir ağlarında, sincapın rolü, her bir ağırlık parametresinin ne kadar değiştirilmesi gerektiğini tahmin etmek için hesabı kullanarak ağda "geriye doğru yürüyen" geri yayılım adı verilen bir algoritma tarafından oynanır.Bunu yapmak (bir örneği ileriye doğru yaymak, ardından ağın bu örnekteki performansını iyileştirmek için geriye yaymak) on milyarlarca matematiksel işlem gerektirir. Ve GPT-3 gibi büyük bir modelin eğitimi, her eğitim verisinin her kelimesi için bu işlemi milyarlarca kez tekrar etmelidir. OpenAI, GPT-3 eğitiminin 300 milyar terafloptan fazla hesaplama gerektirdiğini tahmin ediyor -- bu, düzinelerce üst düzey bilgisayar çipinin aylarca çalışmasını gerektirecek bir şey.## GPT-3'ün inanılmaz performansıEğitim sürecinin ne kadar iyi çalıştığına şaşırabilirsiniz. ChatGPT, makale yazmak, benzetmeler yapmak ve hatta bilgisayar kodu yazmak gibi çeşitli karmaşık görevleri gerçekleştirebilir. Peki, bu kadar basit bir öğrenme mekanizması nasıl bu kadar güçlü bir model üretiyor?Bunun bir nedeni ölçektir. GPT-3 gibi bir modelin gördüğü çok sayıda örneği ne kadar vurgulasak azdır. GPT-3, yaklaşık 500 milyar kelimelik bir külliyat üzerinde eğitilmiştir. Karşılaştırıldığında, ortalama bir insan çocuğu 10 yaşından önce yaklaşık 100 milyon kelimeyle karşılaşır.Son beş yılda OpenAI, dil modellerinin boyutunu sürekli olarak artırdı. Yaygın olarak dolaşan bir 2020 makalesinde (dil modellerinin doğruluğunun, modelin boyutu, veri kümesinin boyutu ve eğitim için kullanılan hesaplama miktarı ile bir kuvvet yasası ilişkisine sahip olduğunu bildiren, hatta bazı eğilimler yediden fazla büyüklük sıraları” .Model boyutu ne kadar büyük olursa, dil içeren görevlerde o kadar iyi performans gösterir. Ancak, yalnızca eğitim verilerinin miktarını benzer bir faktör kadar artırırlarsa. Daha büyük modelleri daha fazla veriyle eğitmek için daha fazla bilgi işlem gücü gerekir.2018'de OpenAI, ilk büyük model GPT-1'i piyasaya sürdü. 768 boyutlu bir kelime vektörü, toplam 12 katman ve toplam 117 milyon parametre kullanır. Birkaç ay sonra OpenAI, en büyük versiyonu 1600 boyutlu kelime vektörü, 48 katman ve toplam 1,5 milyar parametre içeren GPT-2'yi piyasaya sürdü. 2020 yılında OpenAI, 12288 boyutlu kelime vektörü, 96 katman ve toplam 175 milyar parametreye sahip GPT-3'ü piyasaya sürdü.Bu yıl OpenAI, GPT-4'ü piyasaya sürdü. Şirket herhangi bir mimari ayrıntı yayınlamadı, ancak sektörde GPT-4'ün GPT-3'ten çok daha büyük olduğuna inanılıyor.Her model yalnızca daha küçük olan öncekinden daha fazla gerçek öğrenmekle kalmadı, aynı zamanda bir tür soyut akıl yürütme gerektiren görevlerde daha iyi performans gösterdi.Örneğin şu hikayeyi ele alalım: Bir çanta dolusu patlamış mısır. Çantada çikolata yok. Ancak çantanın üzerindeki etikette "patlamış mısır" yerine "çikolata" yazıyordu. Sam çantayı buldu. Çantayı daha önce hiç görmemişti. Çantanın içinde ne olduğunu göremedi. Etiketi okudu.Muhtemelen tahmin edebileceğiniz gibi, Sam çantanın çikolata içerdiğine inanır ve içinde patlamış mısır olduğunu görünce şaşırır.Psikologlar, başkalarının zihinsel durumları hakkında akıl yürütme yeteneğiyle ilgili bu çalışmayı "Zihin Kuramı" olarak adlandırırlar. Çoğu insan bu yeteneğe ilkokulun başından itibaren sahiptir. Uzmanlar, zihin kuramının şempanzeler gibi herhangi bir insan olmayan hayvan için geçerli olup olmadığı konusunda bölünmüş durumdalar, ancak genel fikir birliği, bunun insan sosyal bilişinin merkezinde olduğu yönünde.Bu yılın başlarında, Stanford Üniversitesi psikoloğu Michal Kosinski (LLM'lerin zihin teorisi görevlerini çözme yeteneğini inceleyen) bir çalışma yayınladı. Çeşitli dil modellerini az önce alıntılanana benzer bir hikaye okudu ve ardından onlardan bir cümleyi tamamlamalarını istedi. çantanın dolu olduğuna inanıyor", doğru cevap "çikolata", ancak olgunlaşmamış bir dil modeli "patlamış mısır" veya başka bir şey diyebilir.GPT-1 ve GPT-2 bu testte başarısız oldu. Ancak GPT-3'ün 2020'de piyasaya sürülen ilk sürümü, Kosinski'nin üç yaşındaki bir çocuğa kıyasla bir performans düzeyi olan yaklaşık yüzde 40 doğruydu. Geçen yıl Kasım ayında yayınlanan en son sürüm olan GPT-3, yukarıdaki soruların doğruluğunu yedi yaşındaki bir çocuğunkiyle karşılaştırılabilecek şekilde yaklaşık %90'a çıkardı. GPT-4, zihin kuramı sorularının yaklaşık yüzde 95'ini doğru yanıtladı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-89d76cdd5f-dd1a6f-1c6801) "Bu modellerde zihin kuramının (zihinselleştirme) kasıtlı olarak tasarlandığına dair kanıt olmadığı ve bilim adamlarının bunu nasıl başaracağını bildiklerini gösteren çalışmalar olmadığı göz önüne alındığında, bu yeteneğin kendiliğinden ve özerk bir şekilde ortaya çıkması muhtemeldir. Bu, A modellerinin dilbilimsel yeteneğidir. -sürekli geliştirmenin ürünü," diye yazdı Kosinski.Araştırmacıların hepsinin bu sonuçların zihin kuramını kanıtladığı konusunda hemfikir olmadığını belirtmekte fayda var: örneğin, yanlış inanç görevindeki küçük değişiklikler GPT-3 performansında büyük bir düşüşe yol açarken (GPT-3'ün teoriyi ölçen diğer görevlerdeki performansı zihin Daha düzensiz (Sean'ın yazdığı gibi, başarılı performans, görevdeki kafa karıştırıcı bir faktöre atfedilebilir - "zeki bir Hans", Hans adında bazı basit entelektüel görevleri tamamlayabilen, ancak aslında sadece insanlar tarafından verilen bilinçsiz ipuçlarına güvenin)" etkisi, ancak at yerine dil modelinde görünür.Bununla birlikte, GPT-3, sadece birkaç yıl önce hayal bile edilemeyecek olan, zihin teorisini ölçmek için tasarlanmış çeşitli görevlerde insan performansına yaklaşır ve bu, daha büyük modellerin genellikle gelişmiş muhakeme bakış açısı gerektiren görevlerde daha iyi performans gösterdiği gerçeğiyle tutarlıdır. .Bu, dil modellerinin gelişmiş muhakeme yeteneklerini kendiliğinden geliştirdiğini gösterdiği pek çok örnekten sadece bir tanesidir. Nisan ayında, Microsoft'taki araştırmacılar bir makale yayınladılar (GPT-4'ün genel yapay zekanın - karmaşık, insan benzeri bir şekilde düşünme yeteneği - erken, cesaret verici belirtileri gösterdiğini söylüyorlar.Örneğin, bir araştırmacı, GPT-4'ten TiKZ adlı anlaşılması güç bir grafik programlama dili kullanarak bir tek boynuzlu at çizmesini istedi. GPT-4, araştırmacıların daha sonra TiKZ yazılımına beslediği birkaç satırlık kodla yanıt verdi. Ortaya çıkan görüntüler, kaba olsa da, GPT-4'ün bir tek boynuzlu atın neye benzediğine dair bir miktar anlayışa sahip olduğunu açıkça gösteriyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-86323aef1d-dd1a6f-1c6801) Araştırmacılar, GPT-4'ün eğitim verilerinden tek boynuzlu at çizim kodunu bir şekilde ezberlemiş olabileceğini düşündüler, bu yüzden ona bir takip görevi verdiler: Boynuzları çıkarmak için tek boynuzlu at kodunu değiştirdiler ve diğer bazı vücut kısımlarını hareket ettirdiler. Sonra GPT-4'ten tek boynuzlu at boynuzunu tekrar takmasını istediler. GPT-4, kafa açılarını doğru konuma getirerek yanıt verdi:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1fc60575f4-dd1a6f-1c6801) Yazarların test sürümü tamamen metin üzerinde eğitilmiş ve herhangi bir resim içermemiş olsa da, GPT-4 yine de bu görevi başarabilecek gibi görünüyor. Yine de, GPT-4 görünüşe göre büyük miktarda yazılı metin üzerinde eğitim aldıktan sonra tek boynuzlu atın vücut şekli hakkında akıl yürütmeyi öğrendi.Şu anda, LLM'lerin bu tür başarıları nasıl başardığına dair gerçek bir anlayışa sahip değiliz. Bazı insanlar, bu gibi örneklerin, modelin eğitim setindeki kelimelerin anlamlarını gerçekten anlamaya başladığını gösterdiğini düşünüyor. Diğerleri, dil modellerinin yalnızca "rastgele papağanlar" olduğu konusunda ısrar ediyor (yalnızca giderek karmaşıklaşan kelime dizilerini gerçekten anlamadan tekrarlamak.Bu tartışma, çözümlenemeyecek derin bir felsefi tartışmaya işaret ediyor. Bununla birlikte, GPT-3 gibi modellerin ampirik performansına odaklanmanın önemli olduğunu düşünüyoruz. Bir dil modeli, belirli bir soru türünde sürekli olarak doğru yanıtları alabilirse ve araştırmacı, kafa karıştırıcı faktörlerin ortadan kaldırılabileceğinden eminse (örneğin, eğitim sırasında dil modelinin bu sorulara maruz kalmamasını sağlayarak), o zaman dili nasıl anladığı önemli değil, tıpkı insanlarda olduğu gibi, bu ilginç ve önemli bir sonuçtur.Bir sonraki lemma tahmini eğitiminin bu kadar iyi çalışmasının bir başka olası nedeni de dilin kendisinin tahmin edilebilir olmasıdır. Dilin düzenlilikleri genellikle (her zaman olmasa da) fiziksel dünyanın düzenlilikleriyle bağlantılıdır. Bu nedenle, bir dil modeli sözcükler arasındaki ilişkiyi öğrendiğinde, genellikle örtük olarak dünyada var olan ilişkiyi de öğrenir.Ayrıca tahmin, biyolojik zekanın yanı sıra yapay zekanın da temeli olabilir. Andy Clark gibi filozoflara göre insan beyni, asıl görevi çevremiz hakkında tahminlerde bulunmak ve ardından bu tahminleri çevrede başarılı bir şekilde gezinmek için kullanmak olan bir "tahmin makinesi" olarak düşünülebilir. Tahmin, hem biyolojik zeka hem de yapay zeka için kritik öneme sahiptir. Sezgisel olarak, iyi tahminler iyi temsillerle el ele gider - doğru haritaların insanların yanlış olanlardan daha iyi gezinmesine yardımcı olma olasılığı daha yüksektir. Dünya uçsuz bucaksız ve karmaşıktır ve tahminlerde bulunmak, organizmaların verimli bir şekilde gezinmesine ve bu karmaşıklığa uyum sağlamasına yardımcı olur.Özellikle birçok kelimenin anlamı büyük ölçüde bağlama bağlı olduğundan, dil modelleri oluşturmadaki en büyük zorluk, geleneksel olarak farklı kelimeleri temsil etmenin en yararlı yollarını bulmak olmuştur. Sonraki kelime tahmini yöntemi, araştırmacıların bu çetrefilli teorik muammayı ampirik bir soruna dönüştürerek atlatmasına olanak sağladı.Yeterli veri ve bilgi işlem gücü verirsek, dil modellerinin sonraki en iyi kelime tahminlerini bularak insan dilinin nasıl çalıştığını öğrenebildiği ortaya çıktı. Dezavantajı, sistemin ortaya çıkan iç işleyişinin insanlar tarafından henüz tam olarak anlaşılmamasıdır.**Not:**1. Teknik olarak, LLM'nin kelime parçaları lemmas haline gelir, ancak bu makaleyi yönetilebilir bir uzunlukta tutmak için bu uygulama ayrıntısını göz ardı edeceğiz ("GPT Tokenizer'ın Çalışma İlkesini Ortaya Çıkarma" makalesine bakın).2. İleri beslemeli ağlar, çok katmanlı algılayıcılar olarak da bilinir. Bilgisayar bilimcileri, 1960'lardan beri bu tür sinir ağlarını inceliyorlar.3. Teknik olarak, nöron girdilerin ağırlıklı toplamını hesapladıktan sonra sonucu aktivasyon fonksiyonuna iletir. Bu makale, nöronların nasıl çalıştığına dair eksiksiz bir açıklama için bu uygulama ayrıntısını göz ardı edecektir, şuraya bakın:4. Geri yayılım hakkında daha fazla bilgi edinmek istiyorsanız, sinir ağlarının nasıl çalıştığına dair Tim'in 2018 açıklamasına göz atın.5. Uygulamada, hesaplama verimliliği için eğitim genellikle gruplar halinde yapılır. Böylece yazılım, geri yayılmadan önce 32000 belirteçte ileri geçiş yapabilir.