Resim kredisi: Sınırsız AI tarafından oluşturuldu
Geçenlerde OpenAI'nin baş bilim adamı Ilya Sutskever, Simons Enstitüsü'nde hesaplamalı teori araştırmalarına odaklanan bir konferans verdi.Tek bir cümleyle, denetimsiz öğrenmeye sıkıştırılmış bir perspektiften bakabiliriz. Buna ek olarak, başka birçok ilginç içgörü paylaştı. Makinenin kalbi, okuyucuların denetimsiz öğrenmeyi daha derinlemesine anlamalarına yardımcı olmayı umarak konuşmanın genel içeriğini sıraladı.
Sutskever ilk olarak araştırma yönünün değişmesinden bahsetti ve şöyle dedi: "Kısa bir süre önce tüm araştırma odağımı yapay zeka hizalama araştırmasına kaydırdım." Bu, OpenAI tarafından bir süre önce kurulan "Süper hizalama (süper hizalama)" ekibidir. Jan Leike ile birlikte başrollerini paylaştığı. Sutskever, AI uyumluluğu konusunda bazı araştırma sonuçları elde ettiklerini ancak bu konuşmanın odaklandığı bir konu olmadığını söyledi.
Bu konuşmanın konusu "Genelleme üzerine bir gözlem (genelleme üzerine bir gözlem)" ve Ilya Sutskever özellikle denetimsiz öğrenmeyi açıklayan bir teoriden bahsediyor.
İlk olarak, Ilya Sutskever "öğrenme" hakkında bir dizi genel soru soruyor: Öğrenmek tam olarak nedir? Öğrenmek neden faydalıdır? Öğrenmek neden faydalı olmalı? Bilgisayarlar neden öğrenme yeteneğine sahip olsun? Sinir ağları neden öğrenebilir? Makine öğrenimi modelleri neden veri yasalarını öğrenebilir? Öğrenmeyi matematiksel terimlerle tanımlayabilir miyiz?
Denetimli Öğrenme
Sutskever denetimli öğrenme ile başlar. Yıllar önce birkaç araştırmacının sonucu olan denetimli öğrenme üzerine önemli resmi çalışmalar olduğunu söylüyor; bu sonuçlara genellikle istatistiksel öğrenme teorisi denir.
Denetimli öğrenmenin avantajı, öğrenmenin başarılı olması için kesin bir matematiksel koşul sağlayabilmesidir. Yani, bazı veri dağıtımlarından bazı verileriniz varsa, o zaman başarılı bir şekilde düşük eğitim kaybı elde edebilirsiniz ve yeterli eğitim veriniz varsa (veri dağılımından daha fazla serbestlik derecesi), o zaman test hatanız düşük olmalıdır.
Matematiksel olarak, bir fonksiyon sınıfı içinde daha düşük bir eğitim kaybı sağlayan bir fonksiyon bulunursa, öğrenme başarılı olmalıdır. Bu nedenle denetimli öğrenme çok basittir.
Araştırmacılar ilgili araştırmalarda bazı teoremler keşfettiler, aşağıda bir örnek var. Sutskever, teoremi açıklamanın yaklaşık beş dakika alacağını söyledi, ancak görünüşe göre konuşması için sınırlı zamanı var.
Sonuç olarak, teorem "zariftir" ve yalnızca üç satır matematiksel türetme ile denetimli bir öğrenme sürecini gösterir.
Dolayısıyla denetimli öğrenme nispeten iyi anlaşılmıştır. Neden işe yarayacağını biliyoruz; büyük denetimli öğrenme veri kümeleri toplayabildiğimiz sürece, modellerin giderek daha iyi hale geleceğinden emin olabiliriz. Elbette bir başka nokta da çok önemli, yani test dağılımının eğitim dağılımıyla uyumlu olması ancak bu şekilde denetimli öğrenme teorisi etkili olabilir.
Dolayısıyla denetimli öğrenme kavramı çok basittir. Denetimli öğrenmenin neden işe yaradığına ilişkin yanıtlarımız da var — verimli ve matematiksel olarak garantili denetimli öğrenmeye dayalı oldukları için konuşma tanıma ve görüntü sınıflandırmanın neden işe yaradığını biliyoruz.
Burada Ilya Sutskever bu arada VC boyutundan bahsetmiştir. İstatistiksel öğrenme teorisindeki birçok araştırmacının, VC boyutunun önemli bir bileşen olduğuna inandığını, ancak VC boyutunun amacının, modelin parametreleri sonsuz hassasiyetle işleyebilmesini sağlamak için icat edildiğinden bahsetti.
Örneğin, doğrusal sınıflandırıcınızın her parametresinin sonsuz kesinliği varsa, ancak gerçekte kayan noktalı sayıların kesinliği sınırlıysa ve kesinlik azalacaksa, o zaman VC boyutu aracılığıyla bazı işlevleri uygulayabilir ve bu doğrusal sınıflandırıcıyı dönüştürebilirsiniz. önceki formül tarafından açıklanan denetimli öğrenme formuna indirgenir.
**Denetimsiz öğrenme nedir? **
Sonra denetimsiz öğrenmeye bakın. Öncelikle denetimsiz öğrenme nedir? Ilya Sutskever, henüz denetimsiz öğrenmenin tatmin edici bir açıklamasını görmediğini ve bunun hakkında matematiksel olarak nasıl akıl yürüteceğimizi bilmediğimizi söyledi - en iyi ihtimalle, yalnızca biraz sezgi yapabiliriz.
Denetimsiz öğrenme, makine öğrenimi alanının uzun süredir devam eden bir hayali olmuştur. Sutskever, bu amaca, modelin içeriği söylenmeden verilere baktığı ve içindeki gerçek ve yararlı gizli yapıyı keşfettiği deneysel çalışmalarda ulaşıldığına inanıyor.
Bu nasıl oldu? Bunun olacağından emin olabilir miyiz? Sutskever, yapamayacağımızı söylüyor, sonuçta denetimli öğrenmede sahip olduğumuz aynı teorik garantilere denetimsiz öğrenmede sahip değiliz.
İnsanlar 1980'lerden beri benzer terminoloji kullanarak denetimsiz öğrenmeyi araştırıyorlar. Deneyde insanlar, veri miktarı az olduğunda denetimsiz öğrenme olgusunun ortaya çıkmadığını ancak BERT, difüzyon modeli, eski moda dil modeli vb. gibi bazı popüler geliştirme fikirlerinin ortaya çıktığını gözlemledi. O zamanlar denetimsiz öğrenme de bazı harika örnekler üretebiliyordu, ancak elbette günümüz teknolojisi kadar iyi değildi.
Ancak denetimsiz öğrenmenin nasıl çalıştığını bilmediğimiz için her zaman kafa karıştırıcı olmuştur.
Örneğin, belirli bir hedef için optimizasyon yaptığınızda (görüntünün yeniden oluşturulması veya bir sonraki sözcüğün tahmin edilmesi gibi), başka bir hedefle de ilgilenebilirsiniz (görüntü sınıflandırması veya belge sınıflandırması gibi) ve model bu optimize edilmemiş hedefte de iyi performans gösterebilir. İyi bir performans elde edin. Ama neden? Bilmiyorum, deneyin sonucu bu. Sutskever bunun sihir gibi olduğunu söyledi.
Teoriyi bırakıp pozitivizme kadar mı gideceğiz?
Gözetimsiz öğrenmenin, girdi dağılımındaki yapıyı öğrenmek ve ardından hedefe ulaşmaya yardımcı olacak bir şey elde etmek olduğunu biliyoruz. Peki ya girdi dağılımı tekdüze bir dağılımsa? Şu anda, çeşitli denetimsiz öğrenme algoritmaları başarısız olacaktır. Bu fenomeni nasıl tedavi etmeliyiz? Sutskever, bazı varsayımlarda bulunmamız gerektiğini söylüyor.
Denetimsiz bir öğrenme yöntemi: dağıtım eşleştirme
Ardından Sutskever, denetimsiz öğrenme hakkında potansiyel bir düşünme biçimi gösteriyor. Bu denetimsiz öğrenme yönteminin ana akım haline gelmediğini ancak çok ilginç olduğunu söyledi. Denetimli öğrenmeye benzer özelliklere sahiptir, yani etkili olmalıdır. Neden? Bu, dağıtım eşleştirme adı verilen denetimsiz bir öğrenme sürecini içerir.
Sonra kısaca anlatayım. Farz edin ki aralarında herhangi bir karşılık olmayan iki veri kaynağı X ve Y var; modelin amacı, F(X) dağılımının Y dağılımına yaklaştığı bir F fonksiyonu bulmaktır - bu, F üzerindeki kısıtlamadır.
Bu kısıtlama, makine çevirisi ve konuşma tanıma gibi birçok uygulama senaryosu için anlamlı olabilir. Örneğin, İngilizce cümlelerin bir dağılımı varsa, F fonksiyonunu kullandıktan sonra, Fransızca cümlelerin dağılımına yakın bir dağılım elde edebiliriz, o zaman F'nin gerçek kısıtlamalarını elde ettiğimizi söyleyebiliriz.
Hem X hem de Y'nin boyutları yeterince yüksekse, F'nin çok sayıda kısıtlaması olabilir. Aslında, bu kısıtlamalardan tam bir F bile kurtarabilirsiniz. Bu, gözetimsiz öğrenmenin gözetimli öğrenmesine bir örnektir ve tıpkı gözetimli öğrenmenin çalışması gerektiği gibi çalışması gerekir.
Ayrıca ikame şifreleri de bu çerçeveye uygundur.
Sutskever, fenomeni 2015 yılında bağımsız olarak keşfettiğini söyledi. Bu onu düşündürdü: belki de denetimsiz öğrenmeyi anlamlı bir matematiksel biçimde tanımlayabiliriz.
Elbette yukarıda açıklanan makine çevirisi senaryosu, gerçek uygulama durumuna uymayan basitleştirilmiş yapay bir senaryodur ve karşılık gelen denetimsiz öğrenme senaryosu doğal olarak aynıdır.
Daha sonra Sutskever, denetimsiz öğrenme için matematiksel bir açıklama sağlayabilen ve denetimsiz öğrenmenin sonuçlarının iyi olmasını sağlayan önerdiği yöntemi açıklayacaktır.
Hepimizin bildiği gibi, sıkıştırma bir tahmindir ve her kompresör bir tahminciye dönüştürülebilir ve bunun tersi de geçerlidir. Topluluk sıkıştırıcı ve topluluk tahmincisi arasında bire bir yazışma vardır.
Sutskever, denetimsiz öğrenme hakkındaki düşünceyi daha açık bir şekilde göstermek için tartışmanın sıkıştırma yönünü kullanmanın avantajlı olduğuna işaret etti.
Buna dayanarak bir düşünce deneyi yaptı.
Diyelim ki sabit sürücünüzde iki dosya olan iki veri kümeniz X ve Y var; o zaman harika bir sıkıştırma algoritması C'ye sahipsiniz. Ayrıca, X ve Y üzerinde ortak sıkıştırma yaptığınızı, yani önce bunları birleştirdiğinizi ve ardından kompresöre beslediğinizi varsayalım.
Şimdi önemli olan soru şudur: Yeterince iyi bir kompresör ne işe yarar?
Sutskever çok sezgisel bir cevap verdi: sıkıştırıcı, Y'yi sıkıştırmaya yardımcı olmak için X'te bulunan kalıpları kullanır ve bunun tersi de geçerlidir.
Tahmin görev sahnesinin aslında benzer bir fenomene sahip olduğunu, ancak sıkıştırılmış bağlamda söylemenin daha sezgisel göründüğünü söyledi.
Sıkıştırıcınız yeterince iyiyse, birleştirilmiş dosyaların sıkıştırılmış sonuçları, ayrılmış sıkıştırılmış sonuçlardan daha kötü olmamalıdır.
Dolayısıyla, birleştirerek elde ettiğiniz daha fazla sıkıştırma, kompresörünüzün fark ettiği bir tür paylaşılan yapıdır. Kompresör ne kadar iyi olursa, o kadar yaygın yapıları ayıklayabilir.
İki sıkıştırma sonucu arasındaki fark, paylaşılan yapı, algoritmik karşılıklı bilgidir.
Buna bağlı olarak, Y'yi denetlenen bir görevin verileri, X'i denetimsiz bir görevin verileri olarak düşünebilirsiniz ve bu bilgi hakkında bir tür matematiksel muhakeme yapabilirsiniz - Y görevine yardımcı olmak için X'teki kalıpları kullanabilirsiniz.
Ayrıca dağıtım eşleştirmesine nasıl genelleştiğine de dikkat edin. Dağıtım eşleştirme durumunda, diyelim ki X dil 1 ve Y dil 2 ise ve bir dağıtımdan diğerine dönüşen basit bir F işlevi varsa; o zaman iyi bir sıkıştırıcı bunu da fark edecek ve onu Kullanarak koyacaktır. işlevi dahili olarak geri yüklemek bile mümkündür.
Bu şekilde kapalı bir döngü oluşur. Peki denetimsiz öğrenmeyi matematiksel biçimde nasıl tanımlarız?
Bu bölümdeki açıklamanın, sıkıştırma senaryosunun açıklamasını ve tahmin senaryosunu dönüşümlü olarak kullandığını unutmayın.
Öncelikle, rolü Y'yi sıkıştırmak olan bir makine öğrenme algoritması A'ya sahip olduğumuzu varsayalım. Algoritma A'nın X'e erişimi var. X belge numarası 1 ve Y belge numarası 2 olsun. Makine öğrenimi algoritmamızın/sıkıştırıcımızın Y'yi sıkıştırmasını ve uygun olduğunda X'i kullanabilmesini istiyoruz. Amaç, Y'yi olabildiğince sıkıştırmaktır.
O zaman kendimize sormalıyız: Bu algoritmayı kullanmanın en büyük pişmanlığı (pişmanlığı) nedir?
Sutskever şöyle açıkladı: "İyi bir iş çıkarıyorsam ve pişmanlıklarım düşükse, bu, bu etiketlenmemiş verilerden alabildiğim tüm yardımı almışım demektir. Etiketlenmemiş veriler mümkün olduğunca yardımcı oldu." Ben. bu konuda pişmanlık yok." Bu, daha iyi bir sıkıştırma algoritması için daha iyi tahmin edici olmadığı anlamına gelir. "Etiketlenmemiş verilerimden en iyi şekilde yararlandım."
Sutskever, bunu denetimsiz öğrenme hakkında düşünmeye yönelik önemli bir adım olarak görüyor. Denetimsiz veri kümenizin gerçekten yararlı olup olmadığını bilmiyorsunuz, ancak denetimli bir öğrenme algoritmasından pişmanlık duymuyorsanız, o zaman en iyi sonucu aldınız, daha iyi bir sonuç almak mümkün değil.
Şimdi biraz belirsiz teorik bölgeye.
Kolmogorov karmaşıklığını nihai sıkıştırıcı olarak kullanmak bize ultra düşük pişmanlık içeren bir algoritma verir, ancak bu gerçekten bir algoritma değildir çünkü hesaplanabilir değildir.
Kolmogorov karmaşıklığını kısaca açıklayalım: Sanki bana bazı veriler veriyorsunuz ve onu sıkıştırmak için size mümkün olan en kısa programı sunacağım. Kolmogorov karmaşıklığı, bu en kısa programın uzunluğuna eşittir.
C'nin hesaplanabilir bir kompresör olmasına izin verin, o zaman tüm X için Kolmogorov kompresörünün karmaşıklığı, kompresör C'nin herhangi bir çıktısı artı kompresörü uygulamak için gereken kod karakterlerinin sayısından daha azdır.
Bunu bir simülasyon argümanı kullanarak kanıtlayabiliriz. Diyelim ki çok iyi bir sıkıştırıcı C var, o zaman bu bir bilgisayar programı olabilir, eğer bu bilgisayar programı çalışması için K'ye teslim edilirse, o zaman K'nin ihtiyaç duyduğu maliyet bu programın uzunluğudur. Kolmogorov kompresörü, diğer bilgisayar programlarını ve diğer kompresörleri simüle edebilir ve bu nedenle hesaplanabilir değildir. Tüm bilgisayar programlarını taklit eden ücretsiz bir program gibidir, ancak aynı zamanda mümkün olan en iyi sıkıştırıcıdır.
Şimdi ek bilgi kullanmak için Kolmogorov kompresörünü genelleştiriyoruz. Biliyoruz ki Kolmogorov sıkıştırıcı hesaplanamaz, karar verilemez, ancak tüm programları aramak gibi. Bu, bir program aramak için SGD (Stokastik Gradient Descent) aracılığıyla parametreleri ayarlamak üzere bir sinir ağı kullanmaya benzer. Bu işlem, çok küçük bir Kolmogorov kompresörü gibi belirli kaynaklara (bellek, adım sayısı) sahip bir bilgisayarda çalışır. İkisi arasında benzerlikler var.
Sinir ağları, döngülere/devrelere sahip küçük bilgisayarlar olan uygulamaları simüle edebilir. Verilerden "devrelerini" bulmak üzere bu bilgisayarları eğitmek için SGD'yi kullanabiliriz.
Simülasyonlardan elde edilen argümanlar burada da geçerlidir. Daha iyi bir sinir ağı mimarisi tasarlamak istiyorsanız, bunu zor bulacaksınız çünkü bağlantı ekleme veya değiştirme, diğer sinir ağı mimarileri tarafından simüle edilebilir, ancak aslında yapılması zordur. Çünkü bunlar, büyük gelişmelere yol açabilecek nadir durumlardır. Tıpkı RNN'den Transformer'a geçiş gibi. RNN'lerin bir darboğazı vardır: gizli durum. Ancak RNN'nin çok büyük bir gizli duruma sahip olmasını sağlamanın bir yolunu bulabilirsek, performansı tekrar Transformer'ı yakalayabilir.
Dolayısıyla, denetimsiz öğrenme için bir çözüm olarak koşullu Kolmogorov karmaşıklığını şu şekilde kullanabiliriz:
burada C hesaplanabilir bir sıkıştırıcıdır ve K(Y|X), X kullanılabiliyorsa Y çıktısını veren en kısa programın uzunluğudur.
Bu, denetimsiz öğrenme için hesaplanabilir olmayan, ancak yararlı bir çerçeve sağlayan ultra düşük pişmanlık düzeyine sahip bir çözümdür.
** Her şeyi doğrudan sıkıştırın! **
Sutskever bir adım daha ileri gidiyor ve "her şeyi doğrudan sıkıştırmanın" da mümkün olduğundan bahsediyor.
Koşullu Kolmogorov karmaşıklığı K(Y|X), makine öğrenimi bağlamında doğal değildir çünkü Y'yi X'e göre sıkıştırır, bu da en azından şimdilik büyük veri kümelerinde koşullandırmak büyük ölçüde imkansızdır. Büyük veri kümelerini sığdırabiliriz, ancak bunları koşullandırmak zordur.
Ve yukarıdakiler şunu söylüyor: Denetlediğiniz Y bir şey hakkında tahminlerde bulunmak istiyorsanız, X ve Y birleştirilmiş verilerini sıkıştıran normal bir Kolmogorov sıkıştırıcısı, bir koşullu sıkıştırıcı kadar iyi performans gösterecektir. Elbette gerçek ayrıntılarda daha fazla incelik var, ancak bunun anlamı, denetimsiz öğrenmeyi çözmek için normal bir Kolmogorov sıkıştırıcı kullanabiliriz -- sadece tüm verilerinizi birleştirin ve sıkıştırmayı gerçekleştirin, böylece iyi sonuçlar elde edildi. gözetim görevlerinde elde edilir.
Bunun kanıtı daha karmaşık, o yüzden burada buna girmeyeceğim.
Önemli sonuç, düzenli Kolmogorov sıkıştırmasının (belirli bir veri kümesine bağlı olmadan), etiketlenmemiş verilerin "mümkün olan en iyi kullanımı" olduğudur. Denetimsiz öğrenmenin çözümü budur.
ortak sıkıştırma maksimum olasılıktır
Sutskever'in konuşmasında değindiği son nokta şuydu: Fazla uydurma olmadığı sürece bu ortak sıkıştırma maksimum olasılıktır.
Bir veri kümeniz varsa, verilen parametreler için olasılıkların toplamı, o veri kümesini sıkıştırmanın maliyetidir. Ayrıca parametreleri sıkıştırmanın maliyetini de ödersiniz. Ve iki veri setini sıkıştırmak istiyorsanız sorun değil, sadece veri setinize veri noktaları ekleyin, yani yukarıdaki toplam işlem toplamına daha fazla öğe ekleyin.
Bu nedenle, verileri birleştirerek ortak sıkıştırma, makine öğrenimi bağlamında çok doğal bir yaklaşımdır. Buna karşılık, koşullu Kolmogorov karmaşıklığını geçmek çok daha zahmetlidir.
Sinir ağlarının nasıl çalıştığını açıklamak için bile kullanabiliriz. Büyük program arayıcımız olarak büyük sinir ağları için SGD'yi kullanabiliriz. Sinir ağı ne kadar büyük olursa, normal Kolmogorov kompresörüne o kadar iyi yaklaşabilir. Sutskever şu yorumu yaptı: "Belki de bu yüzden büyük sinir ağlarını seviyoruz, çünkü gerçekleştirilemez düzenli bir Kolmogorov kompresör fikrine pişmanlık duymadan yaklaşabiliriz. Gittikçe daha büyük sinir ağlarını eğittikçe pişmanlık artacaktır. Düşük."
**Bu teori GPT modelleri için de geçerli mi? **
Sutskever'in buna cevabı evet, ancak GPT modelinin davranışını açıklamak için, sıkıştırma veya denetimli öğrenme hakkında bir ifadeye atıfta bulunmadan, GPT'nin "teorisinin" metnin koşullu dağılımı hakkında akıl yürüterek elde edilebileceğini söyleyebilirsiniz.
Peki, bu teoriyi test etmek için başka doğrudan doğrulama yöntemleri bulabilir miyiz? Görme gibi diğer alanlar açısından açıklayabilir miyiz? Bunu piksel verileri üzerinde yaparsak iyi bir denetimsiz öğrenme elde edebilir miyiz?
Sutskever, 2020'de iGPT'de zaten böyle bir çalışma yaptıklarını söyledi. Tabii ki, bu esas olarak bir kavram kanıtı araştırmasıdır ve pratik uygulamadan daha gidilecek çok yol vardır.Ayrıntılar için "Piksellerden Üretken Ön Eğitim" makalesine bakın.
Makale, harika bir sonraki adım tahmincisi yapabilirseniz, harika bir denetimsiz öğrenme elde edebileceğinizi gösteriyor. Bu makale, görüntü alanındaki iddiayı kanıtlamaktadır.
Basit bir ifadeyle, önce görüntüyü bir piksel dizisine dönüştürün, her pikselin ayrı bir yoğunluk değeri vardır. Yapılması gereken tek şey, bir sonraki pikseli tahmin etmek için aynı Transformer'ı kullanmaktır. Bu, bir sonraki belirteci tahmin etmek olan BERT'den farklıdır çünkü bu, sıkıştırmayı en üst düzeye çıkarma olasılığıdır.
Sonucu görelim:
Gösterildiği gibi, bu, farklı boyutlardaki iGPT modelleri için CIFAR-10'daki doğrusal prob doğruluğudur, yani denetimsiz öğrenmenin piksel tahmin görevindeki bir sonraki adım tahmin doğruluğudur. Bir sonraki pikseli tahmin etmenin bir sonraki kelimeyi tahmin etmek kadar etkili olduğu görülmektedir. Denetimsiz öğrenme, model boyutu daha büyük olduğunda daha iyi çalışır.
Deneysel çalışmalar yürüttüler ve ImageNet'te birçok yönden genişletilmiş iGPT'nin performansının en son teknoloji denetimli öğrenmeye yaklaşabileceğini, ancak yine de bazı boşluklar olduğunu buldular.
Ancak Sutskever, bunun bir hesaplama sorunu olduğuna inanıyor, çünkü SimCLR gibi denetimli öğrenme yöntemleri büyük yüksek çözünürlüklü görüntüler kullanıyor ve dev Transformer için küçük 64×64 görüntüler (6,8 milyar parametre) sağlıyorlar. Bu, büyük bir veri kümesine dayalı olarak bir sonraki pikseli denetimsiz bir şekilde tahmin etmek ve ardından mükemmel sonuçlarla ImageNet'e doğrusal problar yerleştirmek gibidir.
CIFAR-10'da, 1,36 milyar parametreye sahip iGPT-L, aşağıdaki şekilde gösterildiği gibi %99'luk bir doğruluk elde etti.
Doğrusal Gösterim
Konuşmanın sonunda Sutskever, doğrusal temsiller hakkında konuşmak istediğini söyledi.
"Sıkıştırma teorisini seviyorum çünkü daha önce denetimsiz öğrenme hakkında titiz bir şekilde düşünmenin bir yolu yoktu," diyor. Şimdi bunu bir dereceye kadar yapabiliriz. Ancak sıkıştırma teorisi, temsillerin neden doğrusal olarak ayrılabilir olduğunu doğrudan açıklayamaz ve doğrusal araştırmaların olması gerektiğini açıklayamaz. Doğrusal temsiller her yerde bulunur ve oluşumlarının nedenleri derin olmalıdır. Sutskever, bunu gelecekte ifade edebileceğimize inanıyor.
İlginç bulduğu başka bir şey de, otoregresif modelin doğrusal gösterim açısından BERT'den daha iyi performans göstermesidir. Ama neden hala belli değil.
Ancak Sutskever kendi spekülasyonunu yaptı: önceki tüm piksellere dayalı olarak bir sonraki pikseli tahmin ederken, modelin verilerin uzun vadeli yapısını gözlemlemesi gerekiyor. BERT, vektörleri işlerken bazı piksel belirteçlerini atar ve hem biraz geçmişi hem de biraz geleceği göz önünde bulundurarak, model aslında oldukça iyi tahminler elde edebilir. Bu sayede tüm zor görevler kaldırılır ve görevlerin zorluğu oldukça azaltılır. Bir sonraki pikseli tahmin etmedeki en zor tahmin görevi, BERT tahmin durumundaki en zor tahmin görevinden çok daha zordur.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Her şeyi doğrudan sıkıştırın! OpenAI baş bilim adamı Ilya Sutskever, denetimsiz öğrenmeyi bu şekilde görüyor
Orijinal Kaynak: Makinenin Kalbi
Geçenlerde OpenAI'nin baş bilim adamı Ilya Sutskever, Simons Enstitüsü'nde hesaplamalı teori araştırmalarına odaklanan bir konferans verdi.Tek bir cümleyle, denetimsiz öğrenmeye sıkıştırılmış bir perspektiften bakabiliriz. Buna ek olarak, başka birçok ilginç içgörü paylaştı. Makinenin kalbi, okuyucuların denetimsiz öğrenmeyi daha derinlemesine anlamalarına yardımcı olmayı umarak konuşmanın genel içeriğini sıraladı.
Sutskever ilk olarak araştırma yönünün değişmesinden bahsetti ve şöyle dedi: "Kısa bir süre önce tüm araştırma odağımı yapay zeka hizalama araştırmasına kaydırdım." Bu, OpenAI tarafından bir süre önce kurulan "Süper hizalama (süper hizalama)" ekibidir. Jan Leike ile birlikte başrollerini paylaştığı. Sutskever, AI uyumluluğu konusunda bazı araştırma sonuçları elde ettiklerini ancak bu konuşmanın odaklandığı bir konu olmadığını söyledi.
Bu konuşmanın konusu "Genelleme üzerine bir gözlem (genelleme üzerine bir gözlem)" ve Ilya Sutskever özellikle denetimsiz öğrenmeyi açıklayan bir teoriden bahsediyor.
Denetimli Öğrenme
Sutskever denetimli öğrenme ile başlar. Yıllar önce birkaç araştırmacının sonucu olan denetimli öğrenme üzerine önemli resmi çalışmalar olduğunu söylüyor; bu sonuçlara genellikle istatistiksel öğrenme teorisi denir.
Denetimli öğrenmenin avantajı, öğrenmenin başarılı olması için kesin bir matematiksel koşul sağlayabilmesidir. Yani, bazı veri dağıtımlarından bazı verileriniz varsa, o zaman başarılı bir şekilde düşük eğitim kaybı elde edebilirsiniz ve yeterli eğitim veriniz varsa (veri dağılımından daha fazla serbestlik derecesi), o zaman test hatanız düşük olmalıdır.
Matematiksel olarak, bir fonksiyon sınıfı içinde daha düşük bir eğitim kaybı sağlayan bir fonksiyon bulunursa, öğrenme başarılı olmalıdır. Bu nedenle denetimli öğrenme çok basittir.
Araştırmacılar ilgili araştırmalarda bazı teoremler keşfettiler, aşağıda bir örnek var. Sutskever, teoremi açıklamanın yaklaşık beş dakika alacağını söyledi, ancak görünüşe göre konuşması için sınırlı zamanı var.
Dolayısıyla denetimli öğrenme nispeten iyi anlaşılmıştır. Neden işe yarayacağını biliyoruz; büyük denetimli öğrenme veri kümeleri toplayabildiğimiz sürece, modellerin giderek daha iyi hale geleceğinden emin olabiliriz. Elbette bir başka nokta da çok önemli, yani test dağılımının eğitim dağılımıyla uyumlu olması ancak bu şekilde denetimli öğrenme teorisi etkili olabilir.
Burada Ilya Sutskever bu arada VC boyutundan bahsetmiştir. İstatistiksel öğrenme teorisindeki birçok araştırmacının, VC boyutunun önemli bir bileşen olduğuna inandığını, ancak VC boyutunun amacının, modelin parametreleri sonsuz hassasiyetle işleyebilmesini sağlamak için icat edildiğinden bahsetti.
**Denetimsiz öğrenme nedir? **
Sonra denetimsiz öğrenmeye bakın. Öncelikle denetimsiz öğrenme nedir? Ilya Sutskever, henüz denetimsiz öğrenmenin tatmin edici bir açıklamasını görmediğini ve bunun hakkında matematiksel olarak nasıl akıl yürüteceğimizi bilmediğimizi söyledi - en iyi ihtimalle, yalnızca biraz sezgi yapabiliriz.
Denetimsiz öğrenme, makine öğrenimi alanının uzun süredir devam eden bir hayali olmuştur. Sutskever, bu amaca, modelin içeriği söylenmeden verilere baktığı ve içindeki gerçek ve yararlı gizli yapıyı keşfettiği deneysel çalışmalarda ulaşıldığına inanıyor.
Bu nasıl oldu? Bunun olacağından emin olabilir miyiz? Sutskever, yapamayacağımızı söylüyor, sonuçta denetimli öğrenmede sahip olduğumuz aynı teorik garantilere denetimsiz öğrenmede sahip değiliz.
Ancak denetimsiz öğrenmenin nasıl çalıştığını bilmediğimiz için her zaman kafa karıştırıcı olmuştur.
Teoriyi bırakıp pozitivizme kadar mı gideceğiz?
Denetimsiz bir öğrenme yöntemi: dağıtım eşleştirme
Ardından Sutskever, denetimsiz öğrenme hakkında potansiyel bir düşünme biçimi gösteriyor. Bu denetimsiz öğrenme yönteminin ana akım haline gelmediğini ancak çok ilginç olduğunu söyledi. Denetimli öğrenmeye benzer özelliklere sahiptir, yani etkili olmalıdır. Neden? Bu, dağıtım eşleştirme adı verilen denetimsiz bir öğrenme sürecini içerir.
Bu kısıtlama, makine çevirisi ve konuşma tanıma gibi birçok uygulama senaryosu için anlamlı olabilir. Örneğin, İngilizce cümlelerin bir dağılımı varsa, F fonksiyonunu kullandıktan sonra, Fransızca cümlelerin dağılımına yakın bir dağılım elde edebiliriz, o zaman F'nin gerçek kısıtlamalarını elde ettiğimizi söyleyebiliriz.
Hem X hem de Y'nin boyutları yeterince yüksekse, F'nin çok sayıda kısıtlaması olabilir. Aslında, bu kısıtlamalardan tam bir F bile kurtarabilirsiniz. Bu, gözetimsiz öğrenmenin gözetimli öğrenmesine bir örnektir ve tıpkı gözetimli öğrenmenin çalışması gerektiği gibi çalışması gerekir.
Ayrıca ikame şifreleri de bu çerçeveye uygundur.
Sutskever, fenomeni 2015 yılında bağımsız olarak keşfettiğini söyledi. Bu onu düşündürdü: belki de denetimsiz öğrenmeyi anlamlı bir matematiksel biçimde tanımlayabiliriz.
Elbette yukarıda açıklanan makine çevirisi senaryosu, gerçek uygulama durumuna uymayan basitleştirilmiş yapay bir senaryodur ve karşılık gelen denetimsiz öğrenme senaryosu doğal olarak aynıdır.
Daha sonra Sutskever, denetimsiz öğrenme için matematiksel bir açıklama sağlayabilen ve denetimsiz öğrenmenin sonuçlarının iyi olmasını sağlayan önerdiği yöntemi açıklayacaktır.
Hepimizin bildiği gibi, sıkıştırma bir tahmindir ve her kompresör bir tahminciye dönüştürülebilir ve bunun tersi de geçerlidir. Topluluk sıkıştırıcı ve topluluk tahmincisi arasında bire bir yazışma vardır.
Sutskever, denetimsiz öğrenme hakkındaki düşünceyi daha açık bir şekilde göstermek için tartışmanın sıkıştırma yönünü kullanmanın avantajlı olduğuna işaret etti.
Şimdi önemli olan soru şudur: Yeterince iyi bir kompresör ne işe yarar?
Sutskever çok sezgisel bir cevap verdi: sıkıştırıcı, Y'yi sıkıştırmaya yardımcı olmak için X'te bulunan kalıpları kullanır ve bunun tersi de geçerlidir.
Tahmin görev sahnesinin aslında benzer bir fenomene sahip olduğunu, ancak sıkıştırılmış bağlamda söylemenin daha sezgisel göründüğünü söyledi.
Sıkıştırıcınız yeterince iyiyse, birleştirilmiş dosyaların sıkıştırılmış sonuçları, ayrılmış sıkıştırılmış sonuçlardan daha kötü olmamalıdır.
İki sıkıştırma sonucu arasındaki fark, paylaşılan yapı, algoritmik karşılıklı bilgidir.
Buna bağlı olarak, Y'yi denetlenen bir görevin verileri, X'i denetimsiz bir görevin verileri olarak düşünebilirsiniz ve bu bilgi hakkında bir tür matematiksel muhakeme yapabilirsiniz - Y görevine yardımcı olmak için X'teki kalıpları kullanabilirsiniz.
Bu şekilde kapalı bir döngü oluşur. Peki denetimsiz öğrenmeyi matematiksel biçimde nasıl tanımlarız?
Denetimsiz Öğrenmenin Matematiksel Resmileştirilmesi
Bu bölümdeki açıklamanın, sıkıştırma senaryosunun açıklamasını ve tahmin senaryosunu dönüşümlü olarak kullandığını unutmayın.
O zaman kendimize sormalıyız: Bu algoritmayı kullanmanın en büyük pişmanlığı (pişmanlığı) nedir?
Sutskever şöyle açıkladı: "İyi bir iş çıkarıyorsam ve pişmanlıklarım düşükse, bu, bu etiketlenmemiş verilerden alabildiğim tüm yardımı almışım demektir. Etiketlenmemiş veriler mümkün olduğunca yardımcı oldu." Ben. bu konuda pişmanlık yok." Bu, daha iyi bir sıkıştırma algoritması için daha iyi tahmin edici olmadığı anlamına gelir. "Etiketlenmemiş verilerimden en iyi şekilde yararlandım."
Sutskever, bunu denetimsiz öğrenme hakkında düşünmeye yönelik önemli bir adım olarak görüyor. Denetimsiz veri kümenizin gerçekten yararlı olup olmadığını bilmiyorsunuz, ancak denetimli bir öğrenme algoritmasından pişmanlık duymuyorsanız, o zaman en iyi sonucu aldınız, daha iyi bir sonuç almak mümkün değil.
Şimdi biraz belirsiz teorik bölgeye.
Kolmogorov karmaşıklığını kısaca açıklayalım: Sanki bana bazı veriler veriyorsunuz ve onu sıkıştırmak için size mümkün olan en kısa programı sunacağım. Kolmogorov karmaşıklığı, bu en kısa programın uzunluğuna eşittir.
Bunu bir simülasyon argümanı kullanarak kanıtlayabiliriz. Diyelim ki çok iyi bir sıkıştırıcı C var, o zaman bu bir bilgisayar programı olabilir, eğer bu bilgisayar programı çalışması için K'ye teslim edilirse, o zaman K'nin ihtiyaç duyduğu maliyet bu programın uzunluğudur. Kolmogorov kompresörü, diğer bilgisayar programlarını ve diğer kompresörleri simüle edebilir ve bu nedenle hesaplanabilir değildir. Tüm bilgisayar programlarını taklit eden ücretsiz bir program gibidir, ancak aynı zamanda mümkün olan en iyi sıkıştırıcıdır.
Şimdi ek bilgi kullanmak için Kolmogorov kompresörünü genelleştiriyoruz. Biliyoruz ki Kolmogorov sıkıştırıcı hesaplanamaz, karar verilemez, ancak tüm programları aramak gibi. Bu, bir program aramak için SGD (Stokastik Gradient Descent) aracılığıyla parametreleri ayarlamak üzere bir sinir ağı kullanmaya benzer. Bu işlem, çok küçük bir Kolmogorov kompresörü gibi belirli kaynaklara (bellek, adım sayısı) sahip bir bilgisayarda çalışır. İkisi arasında benzerlikler var.
Simülasyonlardan elde edilen argümanlar burada da geçerlidir. Daha iyi bir sinir ağı mimarisi tasarlamak istiyorsanız, bunu zor bulacaksınız çünkü bağlantı ekleme veya değiştirme, diğer sinir ağı mimarileri tarafından simüle edilebilir, ancak aslında yapılması zordur. Çünkü bunlar, büyük gelişmelere yol açabilecek nadir durumlardır. Tıpkı RNN'den Transformer'a geçiş gibi. RNN'lerin bir darboğazı vardır: gizli durum. Ancak RNN'nin çok büyük bir gizli duruma sahip olmasını sağlamanın bir yolunu bulabilirsek, performansı tekrar Transformer'ı yakalayabilir.
Dolayısıyla, denetimsiz öğrenme için bir çözüm olarak koşullu Kolmogorov karmaşıklığını şu şekilde kullanabiliriz:
Bu, denetimsiz öğrenme için hesaplanabilir olmayan, ancak yararlı bir çerçeve sağlayan ultra düşük pişmanlık düzeyine sahip bir çözümdür.
** Her şeyi doğrudan sıkıştırın! **
Sutskever bir adım daha ileri gidiyor ve "her şeyi doğrudan sıkıştırmanın" da mümkün olduğundan bahsediyor.
Bunun kanıtı daha karmaşık, o yüzden burada buna girmeyeceğim.
ortak sıkıştırma maksimum olasılıktır
Sutskever'in konuşmasında değindiği son nokta şuydu: Fazla uydurma olmadığı sürece bu ortak sıkıştırma maksimum olasılıktır.
Bu nedenle, verileri birleştirerek ortak sıkıştırma, makine öğrenimi bağlamında çok doğal bir yaklaşımdır. Buna karşılık, koşullu Kolmogorov karmaşıklığını geçmek çok daha zahmetlidir.
Sinir ağlarının nasıl çalıştığını açıklamak için bile kullanabiliriz. Büyük program arayıcımız olarak büyük sinir ağları için SGD'yi kullanabiliriz. Sinir ağı ne kadar büyük olursa, normal Kolmogorov kompresörüne o kadar iyi yaklaşabilir. Sutskever şu yorumu yaptı: "Belki de bu yüzden büyük sinir ağlarını seviyoruz, çünkü gerçekleştirilemez düzenli bir Kolmogorov kompresör fikrine pişmanlık duymadan yaklaşabiliriz. Gittikçe daha büyük sinir ağlarını eğittikçe pişmanlık artacaktır. Düşük."
**Bu teori GPT modelleri için de geçerli mi? **
Sutskever'in buna cevabı evet, ancak GPT modelinin davranışını açıklamak için, sıkıştırma veya denetimli öğrenme hakkında bir ifadeye atıfta bulunmadan, GPT'nin "teorisinin" metnin koşullu dağılımı hakkında akıl yürüterek elde edilebileceğini söyleyebilirsiniz.
Sutskever, 2020'de iGPT'de zaten böyle bir çalışma yaptıklarını söyledi. Tabii ki, bu esas olarak bir kavram kanıtı araştırmasıdır ve pratik uygulamadan daha gidilecek çok yol vardır.Ayrıntılar için "Piksellerden Üretken Ön Eğitim" makalesine bakın.
Basit bir ifadeyle, önce görüntüyü bir piksel dizisine dönüştürün, her pikselin ayrı bir yoğunluk değeri vardır. Yapılması gereken tek şey, bir sonraki pikseli tahmin etmek için aynı Transformer'ı kullanmaktır. Bu, bir sonraki belirteci tahmin etmek olan BERT'den farklıdır çünkü bu, sıkıştırmayı en üst düzeye çıkarma olasılığıdır.
Sonucu görelim:
Deneysel çalışmalar yürüttüler ve ImageNet'te birçok yönden genişletilmiş iGPT'nin performansının en son teknoloji denetimli öğrenmeye yaklaşabileceğini, ancak yine de bazı boşluklar olduğunu buldular.
CIFAR-10'da, 1,36 milyar parametreye sahip iGPT-L, aşağıdaki şekilde gösterildiği gibi %99'luk bir doğruluk elde etti.
Doğrusal Gösterim
Konuşmanın sonunda Sutskever, doğrusal temsiller hakkında konuşmak istediğini söyledi.
İlginç bulduğu başka bir şey de, otoregresif modelin doğrusal gösterim açısından BERT'den daha iyi performans göstermesidir. Ama neden hala belli değil.
Ancak Sutskever kendi spekülasyonunu yaptı: önceki tüm piksellere dayalı olarak bir sonraki pikseli tahmin ederken, modelin verilerin uzun vadeli yapısını gözlemlemesi gerekiyor. BERT, vektörleri işlerken bazı piksel belirteçlerini atar ve hem biraz geçmişi hem de biraz geleceği göz önünde bulundurarak, model aslında oldukça iyi tahminler elde edebilir. Bu sayede tüm zor görevler kaldırılır ve görevlerin zorluğu oldukça azaltılır. Bir sonraki pikseli tahmin etmedeki en zor tahmin görevi, BERT tahmin durumundaki en zor tahmin görevinden çok daha zordur.