Jan Leike: OpenAI 4 yıl içinde süper uyumu nasıl başaracak?

Question

Yazar: Daniel Filan@AXRPKaynak: Yurtdışı UnicornÖnerilen: Cage Derleyici: wenli, Yanxi Dizgi: Mengxi, ScoutOpenAI geçen ayın başında "Süper Hizalama" planını açıklamış ve toplam bilgi işlem gücünün %20'sini tek seferde bu yeni yöne ayıracağını açıklamıştı. OpenAI'nin kurucu ortağı ve baş bilim adamı Ilya Sutskever ve orijinal hizalama ekibi lideri Jan Leike, insanların süper zekayı kontrol edebilmesini sağlamak için süper zeka hizalamasının temel teknik zorluklarını 4 yıl içinde çözme hedefiyle bu yeni projeye ortaklaşa liderlik edecek.Bunu başarmak için OpenAI'nin öncelikle "insan seviyesinde bir otomatik hizalayıcı" eğitmesi ve ardından süper zeka ile hizalama elde etmek için bu "otomatik hizalayıcıyı" kullanması gerekiyor. *Süper Hizalamaya Giriş* makalesine göre, "Otomatik hizalayıcı" "Aligner"ın tasarımı aynı zamanda yapay zekanın yapay zekayı değerlendirmesini ve denetlemesini sağlamayı, açıklanabilirliğe dayalı olarak sistemin güvenliğini doğrulamayı ve sistem üzerinde pertürbasyon testi gerçekleştirmek için hizalanmamış modeller kullanmayı içerir.Bu makale Jan Leike ile yapılan bir röportajdan derlenmiştir. Jan Leike'nin OpenAI'nin "süper hizalamayı" nasıl başarabileceğine dair daha ayrıntılı teknik düşüncesidir.**Aşağıda bu makalenin içindekiler tablosu yer almaktadır ve ana noktalarla birlikte okunması tavsiye edilir. ****👇**01 Süper Hizalama Ekibi02 Modelin “bağımsız olarak hizalanmasına” izin verin03 Süper Hizalama Takvimi04 Genelleme05 Süper Hizalama konusunda iyimser kalın## **01.Süper Hizalama Ekibi****Daniel Filan: Öncelikle Superalignment ekibini tanıtabilir misiniz? ****Jan Leike:** Superalignment ekibinin hedefi önümüzdeki 4 yıl içinde süper akıllı hizalama problemini çözmek. OpenAI'nin kurucu ortağı ve baş bilim insanı Ilya Sutskever de ekibe katılacak ve bu projeyi benimle birlikte yönetecek. Ayrıca OpenAI, bilgi işlem kaynaklarının %20'sini de bu konuya ayıracak. Ayrıca aktif olarak bu proje ekibine katılacak yetenekleri de işe alıyoruz. **Hizalama araştırması yapmamış makine öğrenimi uzmanlarını ve mühendislerini çekmeyi umuyoruz.Belki de bu insanlar bu konuda büyük potansiyel yaratabilirler. **Bir ön çalışma çerçevesi tasarladık; ana fikir, insanlarla aynı seviyede bir otomatik insan seviyesinde hizalama araştırmacısını (otomatik insan seviyesinde hizalama araştırmacısı) eğitmek ve ardından Süper Zeka hizalama çalışmasının nasıl tamamlanacağını araştırmaya devam edecek. . Yani yapmamız gereken en önemli şeylerden biri bu otomatik hizalayıcının nasıl "hizalanacağını" bulmaktır.**Daniel Filan: Bu yeni takım ne kadar büyük olacak? ****Jan Leike:** Şu anda yaklaşık 20 kişimiz var ve bu yılın sonunda 30'a ulaşabiliriz. Önümüzdeki dört yıl içinde bu ekip büyük olasılıkla 100 kişiyi geçmeyecek, ancak bu ekibin genişleme şekli şu şekilde olabilir: Milyonlarca "sanal insan" veya en azından OpenAI çalışanlarının sayısı kadar var (**Shixiang Notu: **Buradaki "sanal insanlar", OpenAI'nin bilim insanlarıyla işbirliği yapmak için birden fazla modeli dahili olarak kullanmasına atıfta bulunmaktadır) bunu yapmanın yolu hizalama). Gelecekte bu seviyeden kesinlikle büyük ölçekte genişleyeceğiz.**Daniel Filan: OpenAI'nin bilgi işlem gücünün %20'sini ekibe vereceğini söylemiştiniz. Bu %20 ne anlama geliyor? ****Jan Leike:** OpenAI için bilgi işlem gücünün %20'sini bu ekibe tahsis etmek az bir rakam değil. Bu kesinlikle uyum konusunda bugüne kadar yaptığımız en büyük yatırımdır ve diğer tüm yatırımların toplamını aşabilir. **Dolayısıyla bu anlamda bilgi işlem kaynaklarının %20'si OpenAI için önemli bir orandır. Ayrıca bu rakamı aşırı büyütürsek bazı insanlar kesinlikle "OpenAI bunu gerçekten yapabilir mi?" sorusunu soracaktır. Ama aslında OpenAI için en ileri modelleri geliştirmeye devam etmek ve en gelişmiş yapay zekayı analiz etmek istiyorsak, Sistem, çok fazla bilgi işlem kaynağı gerektirecek şekilde önceden eğitilmiştir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a4c8eba9-dd1a6f-6d2ef1) **Daniel Filan: Bundan önce OpenAI'nin zaten bir uyum ekibi vardı. Bu ekip hala mevcut mu? ****Jan Leike:** Geçen yıl kurulan hizalama ekibi iki bölümden oluşuyor; birine "Pratik hizalama", diğerine "Ölçeklenebilir hizalama" adı veriliyor. Pratik Hizalama ekibi GPT-4 hizalamasına odaklanırken, Ölçeklenebilir Hizalama ekibi şu anda çözemediğimiz hizalama sorunlarını incelemeyi amaçlamaktadır. ChatGPT'nin piyasaya sürülmesi ve ardından gelen başarısıyla birlikte, ChatGPT'nin önemi ve ürün ölçeği sürekli olarak artmakta, ürünün işlevlerinin ve deneyiminin yeterince eksiksiz olmasını sağlamak için daha büyük RLHF ve modeller gerekmektedir. Hizalama ekibi artık bunu yapmaya uygun değildir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6f4d3f955-dd1a6f-6d2ef1) Daha önce bahsettiğimiz pratik hizalama çalışması artık çeşitli OpenAI proje ekipleri arasında dağıtıldı ve yüzlerce kişi katıldı, dolayısıyla zaten çok büyük ölçekli bir proje ve ölçeklenebilir hizalama çalışması artık Superalignment Ekibi tarafından yürütülüyor. Yapılacak şeyler.Süper Hizalama ismini seçmemizin nedeni, şu anda üzerinde çalıştığımız şeylerin aslında henüz ortaya çıkmamış sorunlar olduğunu vurgulamak istememizdir.Araştırmamız nispeten ileriye dönük ve geleceğe yöneliktir.**Daniel Filan: OpenAI dışındaki kişilerin veya ekiplerin uyum sağlama çabalarını nasıl görebiliriz? ****Jan Leike: **OpenAI dışında da ilgili çalışmaları deneyen birçok kişi veya ekip var, özellikle de DeepMind ve Anthropic.Bir dereceye kadar hepimiz aynı sorunu çözmeye çalışıyoruz, bu yüzden benzer işler yapıyoruz. Bu da normaldir. Yorumlanabilirlik ve ölçeklenebilir denetim konusunda başka çalışmalar da var.Bir bakıma, aslında bir grup işi çoğaltma riskiyle karşı karşıyayız, bu nedenle ideal olarak nasıl daha iyi koordine olabileceğimizi veya daha fazla işbirliği yapabileceğimizi bulmaya çalışıyoruz. Ancak herkes aynı şeyi yapıyorsa "grup düşüncesinden" kaçınılabilir, çünkü her laboratuvar bu sorunları bağımsız olarak çözmek isterse, doğal olarak diğer laboratuvarların sonuçlarından şüphe duyacak ve olumsuz tarafı "grup düşüncesi" üretecektir. -veya etkisi: İnsanlar başka yerlerde icat edilen teknolojileri kullanmak konusunda isteksizdirler ve insanlar doğal olarak kendilerinin dışındaki teknolojilerin iyi olmadığını düşünecek veya onlara bir tür önyargıyla bakacaktır.Dolayısıyla şu anda durum iyi bir dengede değil ve tüm hizalama çalışanlarının tek bir yerde olması ve bir şekilde birlikte çalışması gerektiğini düşünmek için bir neden olsa da gerçek bu çünkü doğaları gereği son teknolojiye sahip yapay zeka laboratuvarlarının motivasyonu var Çok yatırım yapın "Hizalama" konusunda kaynakların kullanımı. Bu aynı zamanda modelleri ticari olarak daha uygun hale getiren ve bu tür tekniklere yönelik araştırmalara yatırım yapmayı daha çekici hale getiren RLHF'nin başarısıyla da açıkça ortaya çıktı.**Daniel Filan: OpenAI Süper Hizalama Ekibinin yaklaşımı nasıl farklı? ****Jan Leike:** Çeşitli görevleri nasıl hizalayacağımızı anlamaya çalışmak yerine, bu otomatik hizalayıcıyı nasıl hizalayacağımıza gerçekten odaklandık. Yani en azından bu konuda uyum vergisi konusunda pek endişeli değiliz. Diğer laboratuvarların bu hedefi veya yönü bu şekilde vurguladığını sanmıyorum.**Hizalama vergisi:**Güvenlik vergisi olarak da bilinen bu vergi, yapay zeka sistemlerinin uyumlu hale getirilmesinin ek maliyetini ifade eder. Bu makalede bahsedilen RLHF kapsamındaki uyum vergisi, RLHF yapmak için, geliştirme süresinin artması, ek hesaplamalar veya performans düşüşü vb. gibi nedenlerle uyum sağlamak amacıyla temel model kapasitesinin kaybedilmesi anlamına gelir.**Bizim iyimser yaklaşımımız şudur: tüm ölçeklenebilir hizalama tekniklerini deneyin, hangilerinin en iyi sonucu verdiğini görün ve ampirik olarak karşılaştırılabilecek yöntemler bulmaya çalışın. Diğer laboratuvarların çok heyecan duydukları belirli ölçeklenebilir gözetim teknolojileri var ve bu teknolojileri de kullanmaya çalışıyorlar. Ayrıca, yorumlanabilirlik açısından, yorumlanabilirliğe otomatikleştirilmiş bir yaklaşım getiriyoruz ve onu çok fazla öne çıkarıyoruz, diğer laboratuvarlar şu anda buna çok fazla önem vermiyor. ****Gerçekten yapmak istediğimiz bir diğer şey de ana stratejilerimizden biri olan hizalamayı ilerletmek için bilgi işlemden yararlanmaktır**, özellikle ölçeklenebilir denetim açısından, bunu daha fazla bilgi işlem gücüyle nasıl yapacağımızı gerçekten bulmak istiyoruz. daha iyi denetleyici sinyaller mi veriyorsunuz? Hangi fırsatlara sahibiz? Eleştiri modeli (Eleştiri modeli) nasıl daha iyi hale getirilir? Denetim sinyalini daha güçlü hale getirmek için daha fazla bilgi işlem gücü nasıl kullanılır? Otomatik yorumlanabilirlik çok basit bir yöntemdir ve yalnızca çok fazla bilgi işlem gücüne yatırım yaparak bu sorun üzerinde ilerleme kaydedebiliriz.**Eleştiri modeli:**Bağımsız bir dil modelidir. İnceleme yazmadan önce ilk yapay zeka sisteminin sonuçlarını inceler.Ayrıca otomatik hizalama konusunda da araştırmalar var: Eğer bu yapılabilirse, daha fazla bilgi işlem gücüne yatırım yaparak daha fazla hizalama sonucu elde edebiliriz. Ancak asıl yapmak istediğimiz şey, bilgi işlem gücü miktarını hizalama yeteneğine dönüştürmek olduğundan, artık çok fazla bilgi işlem gücüne ihtiyacımız var ve bu nedenle OpenAI, bilgi işlem gücünün %20'sini hizalamaya ayırmaya istekli. Bunun temel olarak söylediği şey, eğer bu otomatik hizalayıcıyı gerçekten bulursak ve daha fazla bilgi işlem gücüne ihtiyacımız olduğunu bulursak, onu çalıştırmak için daha fazla bilgi işlem gücü kullanabiliriz. Bu aynı zamanda bilgi işlem gücünü hizalamaya dönüştürme stratejisinin başarılı olduğu ve OpenAI tarafından destekleneceği anlamına da geliyor.## **02. Modelin "bağımsız olarak hizalanmasına" izin verin****"Otomatik Hizalayıcı" nedir****Daniel Filan: "Otomatik insan düzeyinde hizalama araştırmacısı" nedir? ****Jan Leike: Amacımız, hizalama çalışmalarında görevleri parçalara ayırmak ve dağıtmak için mümkün olduğunca otomatik sistemler kullanmaktır. **Dil modelleri veya diğer yapay zeka sistemleri için başarabilecekleri iş, insanlarla %100 tutarlı değildir. Örneğin, yüksek lisans öğrencileri tercüme etme veya gerçek soruları yanıtlama gibi konularda insanlardan daha iyi performans gösterebilir ancak aritmetik hesaplamalar veya diğer bazı görevlerde insanlar kadar yetenekli olmayabilirler. **O halde soru şu: İnsan araştırmacıların sınırlı enerjisini serbest bırakmak için yapay zekaya bunu halletmesi için hangi sırayla ve hangi görevleri vermemiz gerekiyor? **Sonuç olarak, insan ekipleri kritik işleri daha verimli bir şekilde tamamlayabilecek ve yapay zeka da giderek artan sayıda yardımcı görevi üstlenecek.**Genel olarak, çalışmaya katılan yapay zekanın oranı giderek artacak, insan araştırmacılar ise yapay zekanın üstlenmediği görevlere daha fazla dikkat edecek ve insan-makine aracılığıyla süper zeka uyumu araştırmalarını daha pratik bir şekilde hızlandıracak. işbirliği. ****Daniel Filan: Yani bu, OpenAI uyum ekibindeki belirli insan çalışanların yerini almak için yapay zekayı kullanmak değil, herkesin yaptığı belirli bir işi tamamlamak için yapay zekayı kullanmak ve ardından onu adım adım yapay zekayla değiştirmektir. Daha fazla görev gerçekleştirmek? ****Jan Leike:** Evet, eğer bu sistemin yeterince üretken olmasını istiyorsak, görevlerin %99'u veya %99,9'u otomatikleştirilmeli, böylece araştırma sonuçlarını 10 kat, 100 kat, hatta belki 1000 kat iki katına çıkarabiliriz.Burada bahsedilen "görevleri" genel olarak iki geniş kategoriye ayıracağım. Bunlardan biri, çeşitli makine öğrenimi deneylerinin uygulanması ve deneysel sonuçların toplanması gibi yapay zeka sistemlerinin yeteneklerinin geliştirilmesine yardımcı olmak için tasarlanmış daha geleneksel makine öğrenimi mühendisliği araştırma görevleridir.Diğer tip ise süper zeka uyumunu sağlamak için yapılması gerekenlerdir.Bu tip problem göreceli olarak daha büyük ve üst düzeydir (üst düzey).Örneğin ölçeklenebilirlik denetimini (Ölçeklenebilir Gözetim) geliştirmek için nasıl karar vereceğiz? hangi denemeler yürütülecek? Veya yorumlanabilirlik konusunda nasıl ilerleme kaydedileceği. Elbette cevaplanması gereken bazı çok spesifik soruların olması gerekir, örneğin bir araştırma belirli bir aşamaya geldiğinde, daha sonra çözülmesi gereken bir dizi problemin ve diğer çok detaylı konuların açıklığa kavuşturulması gerekir.**Ölçeklenebilir Gözetim:**Ölçeklenebilirlik denetiminin amacı, model yeteneklerinin hala insan beklentileriyle tutarlı olmasını ve insan seviyelerini aştıktan sonra gelişmeye ve öğrenmeye devam etmesini sağlamaktır. Bu, araştırmacıların modelin kapasitesinin nasıl artırılacağını, modelin değerlerinin nasıl hizalanacağını ve modelin performansının sürekli olarak nasıl izleneceğini düşünmesini gerektirir. Ölçeklenebilir denetimin odak noktası, modele sürekli olarak güvenilir denetimin nasıl sağlanacağıdır. Bu denetim, etiketler, ödül sinyalleri veya eleştiriler gibi çeşitli biçimlerde olabilir.Makine öğreniminin, deneyleri tasarlamak ve otomatik olarak yürütmek olan ilk tür görevleri çok iyi bir şekilde gerçekleştirebileceğini düşünüyorum ve bugün hizalamanın ilerlemesini hızlandırmak için yaptığımız benzersiz çalışma, ikinci türün nasıl otomatikleştirileceğini bulmaktır. görevin. ****Daniel Filan: İkinci tür görev, tüm süreci kapsayan bir görev gibi mi görünüyor? Sadece araştırma talimatlarını bulmak değil, neyin yararlı olabileceğini bulmak, hatta "şu anda hangi senaryoyu çalıştıracağım"a kadar. ****Jan Leike: **Bu soru aslında şu şekilde sorulabilir: **Hizalama araştırması geleneksel makine öğrenimi araştırmasına büyük ölçüde benzediğinden, ikinci türden başka hangi görevler yapılabilir? ****İkinci tür görevlerin aslında pek çok şey içerdiğini düşünüyorum ve bu bölümdeki araştırma etkisi çok büyük. **Çünkü araştırma konuları açısından bakıldığında "uyumun nasıl tanımlanacağı" konusunda fikir birliğine bile varamadık. Hatta endüstri uzmanları bile "uyumlamayı gerçekleştirmesi en muhtemel teknik rotayı" veya "hangi işin yapılması gerektiğini" merak ediyor. sonra yapılır" "Bu konularda farklılıklar var. Bu nedenle uyum hızlandırılabilirse etkisi çok büyük olacaktır. Bu aynı zamanda araştırmacılara OpenAI Superalignment ekibine katılmaları çağrısında bulunduğumuzda anlattığımız vizyon ve yöndür.Bu aşamada hâlâ bazı temel sorunları çözüyoruz ve uyum konusunda araştırma yapmak için hâlâ yapılması gereken çok çaba var. Süper zekayı nasıl hizalayacağımızı bilmiyoruz ve hatta yapay zeka sistemlerini insanlardan daha yüksek zekayla uyumlu hale getirmek bile zor.**Daniel Filan: İnsan seviyesinde otomatik hizalayıcı konseptinden bahsettiniz, ancak görünen o ki yapay zekadaki çoğu şey tam olarak insan seviyesinde değil. Bu hedefte “insan düzeyi” ne kadar önemli? Bahsettiğiniz görevlerden yapay zekanın bazı görevlerde insan seviyelerini aşması iyi bir şey mi yoksa kötü bir şey mi? ****Jan Leike: Bence bu sorunun anahtarı, uyum araştırmalarında bu tür insan düzeyinde bir sisteme sahip olmanın ne kadar riskli olduğudur. **Bir yapay zeka sisteminin çok fazla bilgiye sahip olması korkunç değil, ancak bu sistem bazı (uzun vadede çoğu) hizalama araştırmasını devraldığında, bunun insanlara yalan söyleyip söylemeyeceğini düşünmemiz gerekiyor. Yapay zeka bizi kandırıp sistemi ele geçirmeye çalışacak mı?Şu anda modelin davranışının çoğunun nasıl oluştuğunu gerçekten anlamadığımız için, karşılaştığımız asıl soru, davranışını ve risklerini anlamak için ne tür becerilere ihtiyacımız olduğu ve bu, otomatikleştirilmiş bir araştırmacı oluşturmak için ihtiyaç duyduğumuz becerilerle karşılaştırılabilir mi? Hiper hizalama için beceriler nasıl karşılaştırılır?Bu sorunun biraz daha derinlerine inersek, asıl kaygı duyduğumuz şey nedir? Model insanları kandırabilecek bir dizi yalan mı örecek? Modeller zaten insanları kandırıyor mu? Aslında başka bir hedefi hedeflerken, bir şeyi yapıyormuş gibi mi yapıyorsunuz veya bir şeye inanıyor musunuz?Bu nedenle, bir modelin **jailbreak (kendi kendine sızma**) yapıp yapmayacağını değerlendirmek de önemlidir: model, sistemin güvenlik önlemlerini kırma, model ağırlık parametrelerini elde etme ve bunları başka bir yerde kopyalamaya çalışma konusunda ne kadar yeteneklidir? internet? Veya ağırlıklara erişimi olan bir insan mühendisi ikna ederek modelin bu verileri indirip başka bir yere göndermesi mümkün müdür? Modelin bu alandaki yeteneğini de ölçebiliyoruz, bu kritik konularda modelin yeteneğinin çok güçlü olmadığını umuyorum.**Daniel Filan: İnsan seviyesindeki bir otomatik hizalayıcının çok akıllı, yaratıcı ve görev planlama yeteneğine sahip olması gerekiyor. Ayrıca hizalama ile ilgili konularda çok iyi düşünmesi gerekiyor. Bu durumda, o kadar güçlü sesler var ki aracın kendisi insanlar için çok tehditkardır. Eğer görev otomatik hizalama elemanlarını hizalamaksa, çözmesi gereken başka sorunlar var mı? ****Jan Leike: Sonunda bunun deneyim odaklı bir şey olacağını düşünüyorum. **Bunu makro düzeyde düşünerek başlayabiliriz. Örneğin, modelin yeteneği geliştirildiğinde, doğal olarak modelin bazı hizalama araştırmaları yapmamıza yardımcı olmasına izin vereceğiz ve model araştırma yürütmemize yardımcı olurken, kendi yeteneği de geliştirildi. Sonuç olarak bunu daha güçlü bir modeli hızlı bir şekilde eğitmek için kullanabiliriz.Bu hikaye ilk bakışta heyecan verici görünse de pratikte aslında oldukça karmaşıktır. Öncelikle model ön eğitimi genellikle haftalar değil birkaç ay sürer, bu nedenle yeni nesil modeller doğana kadar bu nesil modelleri kullanmamız gerekiyor. Henüz net bir cevabı olmayan bir başka soru da şudur: Bilgi işlem gücünü artırma konusunda hâlâ pek çok "başarısız sonuç" var mı?Hizalama ile karşılaştırıldığında, tüm AI topluluğunun AI'nın hızını ve yeteneklerini geliştirmeye yönelik yatırımı ve ilgisi oldukça büyük olduğunu düşünüyorum. Her iki topluluğa da fayda sağlamak için bu görevlerin daha fazlasını otomatikleştirebilirsek, o zaman uyum topluluğu ölçeğinde daha küçük durumlarda getirdiği marjinal fayda daha yüksek olacaktır.**Daniel Filan: Hizalama araştırması yönünün değerlendirilmesi söz konusu olduğunda, bu otomatik hizalayıcının uzun vadeli hedefinin ne olacağını düşünüyorsunuz? ****Jan Leike:** Dil modellerinin veya yapay zekanın genel olarak insanlardan ortalama olarak daha yaratıcı olduğunu düşünüyorum. Örneğin, bir yayılma modeli tarafından oluşturulan görüntüler veya önceden eğitilmiş bir temel modelden alınan örnekler kesinlikle pek çok beklenmedik şey bulacaktır, bu nedenle modelin yaratıcılığı özellikle güçlüdür ve bizim için birinden veya küçük birinden öğrenmemiz zordur. Model bunu yapabilir çünkü tek bir insanın yapamayacağı bu geniş ölçekli dağılımdaki örneklemeyi tamamlamak için insanların söylediği tüm kelimeleri veya İnternet'teki tüm görüntüleri öğrenmiştir. nokta.Uzun vadeli hedefler söz konusu olduğunda, sözde uzun vadeli hedeflerin kasıtlı olarak peşinden koşmaya hiç gerek olmadığını düşünüyorum, çünkü önce kısa vadeli görevleri yapay zekaya devredebiliriz. bu oldukça yeterli. **Örneğin, "Bu az önce yazdığımız bir makale. Lütfen bir sonraki adım için veya hangi yeni deneylerin uygulanabileceği konusunda önerilerde bulunun." gibi çok küçük ölçekli bir şey olabilir. Gerçek bir yıldız yapay zeka araştırmacısından soru sormasını istediğimizi hayal edin, böylece uzun vadeli hedefler peşinde koşmalarına gerek kalmıyor, sadece bir sonraki küçük hedefleri optimize etmemize yardımcı olmaları gerekiyor, eğer yapabilirlerse belki birkaç bin jetonu. Bu kuyu zaten insanlığa çok fazla değer katabilir.**Daniel Filan: Bu, daha önce bahsedilen hizalama görevlerinin %99,9'unu otomatikleştirme hedefiyle çelişiyor gibi mi görünüyor? Bana göre uyum araştırması yapmanın anahtarlarından biri "gerçekten uyumlu bir yapay zeka elde etmek için neye ihtiyaç var" sorusunu düşünmeye ve çözmeye devam etmektir. ****Jan Leike:** Doğru. Ama anlatmak istediğim şu; **Sistem bu görevleri iyi bir şekilde tamamladığında çok büyük bir değere ulaşmış oluyor ve biz insanlara düşen de bu görevleri birleştirmektir. **Örneğin, bazı görevler "bu deneyleri uygulayan kodu yazmak" iken diğerleri "sonuçlara bakın ve bana ne gördüğünüzü söyleyin" veya "bundan sonra ne yapacağınızı önerin". Esasen, modeller bu görevleri yerine getirdiğinde, bunları Auto-GPT veya dil modeli programlarında insanların yaptığı gibi genel bir şekilde birleştirebiliriz, her görev küçük ve otomatiktir, böylece sistemin kasıtlı olarak bazı şeyleri takip etmesine gerek kalmaz. büyük ve uzun vadeli bir hedef.Örneğin, OpenAI'nin yakın zamanda sunduğu *Adım Adım Doğrulayalım*, "sistemin doğru cevabı alıp almadığı" çözümünü eğitmek yerine, ispat sürecinin her adımında insan geri bildirimine dayalı bir ödül modeli yetiştirmek için matematikte süreç tabanlı geri bildirimi kullanıyor. ". Bunun daha etkili olduğu kanıtlandı çünkü yapay zeka sistemine daha ayrıntılı bir öğrenme yöntemi ve daha ayrıntılı geri bildirim sağladı. Ancak uzun vadede bu, uçtan uca takviyeli öğrenmeyle rekabet edebilir mi? Henüz bilmiyoruz, ancak en azından şimdilik, bu ayrıntılı adımların dökümünü, sistemin insanların yapacağı pek çok yararlı şeyi yapmasını sağlamak ve sonra bunları bir araya getirmek için kullanabiliriz.***Adım Adım Doğrulayalım:***Hunter Lightman ve diğerleri tarafından Mayıs 2023'te yapılan bir çalışma. Büyük modellerin karmaşık, çok adımlı akıl yürütme görevlerinde sıklıkla ortaya çıkan mantıksal hatalar sorununa odaklanan yazar, sonuç denetimi ve süreç denetiminin iki yöntemini karşılaştırır: sonuç denetimi esas olarak nihai sonuç için geri bildirim sağlarken, süreç denetimi her biri için geri bildirim sağlar. ara akıl yürütme adımı, geri bildirim. Çalışma, süreç denetiminin, özellikle matematik problemlerinde, sonuç denetimli eğitimli modellerden önemli ölçüde daha iyi performans gösterdiğini buldu. Ayrıca yazarlar, aktif öğrenmenin süreç denetiminin etkinliğini önemli ölçüde artırdığını bulmuşlardır.**Daniel Filan: Bahsettiğiniz küçük görevlerden biri de "sonuçlara bakın ve bundan sonra ne yapacağınıza karar verin". Bunu yapmak istiyorsanız, dört yıl içinde süper zeka uyumu hedefine ulaşmak için hangi spesifik projenin en faydalı olduğunu düşünmelisiniz. ****Jan Leike: Haklısın. Optimizasyon ve uzun vadeli kredi tahsisi yoluyla değil, daha çok istemlere daha geniş hedefler ve bağlam eklemek gibi. **Ancak pratik uygulamalarda, sistemleri takviyeli öğrenme (RL) veya insan geri bildirimine dayalı takviyeli öğrenme (RLHF) yoluyla iyileştirdiğimizde, aslında bu yöntemlerin etkili olup olmadığına dair sonuçlara varmak için araştırma projesinin sonuna kadar beklememize gerek yok. . Bunun yerine, ödüller önermek için insan geri bildirimlerini temel olarak kullanabiliriz ve kendimize basitçe şu soruyu sorabiliriz: "Bu yön, kendi başıma düşünebileceğim herhangi bir yönden daha iyi görünüyor mu?"**Dolayısıyla Superalignment'ın genel amacının mevcut teknoloji altında en güçlü otomatik hizalamayı elde etmek değil, çok kullanışlı ve geniş ölçekte uygulanabilecek bir sistem oluşturmak olduğunu düşünüyorum. uyum sağlayabileceğini ve bu görevleri ona bırakacağınızdan emin olabilirsiniz. ****Görev bölmeyle karşılaştırıldığında, yalnızca uçtan uca eğitimin modeli daha yetenekli hale getirebileceği yönünde bir görüş olabilir. Ama bence bu o kadar da önemli değil.Aslında uçtan uca eğitim yöntemi sadece model yeteneklerini büyük ölçüde sınırlamakla kalmıyor, aynı zamanda daha az verimli oluyor.İnsanların genellikle "uyum vergisi" dediği şey budur. **Piyasadaki diğer şirketlerle etkili bir şekilde rekabet etmeyi düşünüyorsanız, "uyum vergisi" çok önemli bir faktördür: Diyelim ki uyum konusunda özellikle iyi iş çıkaran ancak çok daha zayıf görünen bir chatbot geliştiriyorum. Aslında piyasada rekabet etmek çok zor. Ancak bir otomatik hizalayıcınız varsa, o otomatik hizalayıcının piyasada rekabet etmesine gerek yoktur, yalnızca bizim için faydalı olması gerekir. Yani daha yüksek uyum maliyetlerini kabul edebiliriz çünkü alternatifimiz yoktur veya gerçek alternatif daha fazla insanı işe almaktır, ancak bu o kadar ölçeklenebilir değildir.**Daniel Filan: Bu otomatik hizalama araştırmacısının hangi sorunları çözebileceğini umuyorsunuz? ****Jan Leike:** "Süper zekayı nasıl ayarlayacağız" sorusunu çözmeli. **Süper zeka hizalaması Gerçek çözüm, bugün yaptığımız hizalamadan çok farklı olabilir. **ChatGPT'nin çözümü, insan geri bildirimlerinden, yani RLHF'den (İnsan geri bildiriminden pekiştirmeli öğrenme) çok şey öğrenmektir. Bu aşamadaki genel fikir birliği, bu yaklaşımın ölçeklendirilmesinin zor olabileceğidir çünkü temel olarak insanların sistemin ne yaptığının ayrıntılarını tam olarak anlaması gerektiğini varsayar.Yani modelden geniş çaplı hizalama araştırması yapmasını isterseniz milyonlarca insan iş yüküne eşdeğer bir görev hayal edebilirsiniz.İnsanların tüm verileri görüntüleyip detaylı geri bildirim vermesi açıkçası imkansızdır.Bu oldukça zordur. Bu süreçte birçok önemli hatayı kesinlikle göz ardı edeceğiz.**Superalignment ekibinin şu anda üzerinde çalıştığı teknoloji, RLHF'yi genişletilebilir hale getirmek ve otomatik hizalayıcılar için hizalamayı uygulamaktır. **Bu otomatik hizalayıcı neredeyse insanlarla aynı seviyededir, bu zor görevleri tamamlamada insanın yerini alabilir ama insanlardan çok da farklı olmayacaktır. Ulaşmak istediğimiz bu teknikler, **Ölçeklenebilir denetim RLHF'nin doğal bir uzantısıdır gibi önceki teknoloji araştırmalarına göre yükseltmeler veya ciddiyettir. **Ölçeklenebilir denetim, zorlu değerlendirme görevlerinde insanlara yardımcı olmak için yapay zekadan yararlanmamızı sağlayan fikir ve tekniklerin genel birleşimi olarak tanımlanır. Denetim, insan geri bildirimi (RLHF) ile takviyeli öğrenmeden oluşturulabilir.Ölçeklenebilir denetimin tipik temsilcileri arasında tartışma, yinelenen ödül modellemesi (RRM, yinelenen ödül modelleme), yinelenen damıtma ve güçlendirme, otomatik pazar oluşturma vb. yer alır. Pek çok yeni yöntem ortaya çıkıyor.Sistemin insanlardan daha akıllı olduğu, daha hızlı düşündüğü ve tamamen yeni bir büyüklük düzeyinde hesaplama yaptığı göz önüne alındığında, eğer gerçekten bir süper zeka düzenlemesi yapacaksak, bu bir sürü başka soruna yol açacaktır, özellikle de Süper genel olacak ve pek çok şey yapabileceksiniz ve sonra onu nasıl hizalayacağınızı bulmanız gerekecek, sadece araştırma görevlerini daha dar bir dağılımla hizalamak değil, diğer her şeyi. Ayrıca çok sayıda ampirik değerlendirme yoluyla başarılı olduğunu doğrulamanız gerekir.Yani şu anda sadece ben değil, herkes geleceğin nasıl görüneceğini bilmiyor ama resmi bir doğrulamanın olması çok heyecan verici olurdu. Belki teorik olarak garantili bir algoritma bulduk, ancak teori ve sonraki uygulamalar çok farklı olabilir ve ben bile kabaca insan seviyesindeki bir hizalama araştırmacısının bu sorunları hemen çözmeye başlayacağını düşünmüyorum. Bunun yerine, bir sonraki yinelemeyi daha iyi hizalamanın yollarını bulmalarını umuyoruz, böylece rehberlik yoluyla sonuçta süper zekaya ince ayar yapmamıza yardımcı olacak bir sisteme sahip oluruz.**Daniel Filan: İnsan düzeyindeki bu yapay zeka hizalama araştırmacılarına sahip olduğunuzda, OpenAI'nin hâlâ bir süper zeka hizalama ekibine ve ilgili çalışanlara ihtiyacı var mı? ****Jan Leike:** Bu güzel bir soru. Yapay zekanın yerini alabilse kişisel olarak çok heyecanlanırdım. **Ancak tarihsel olarak tipik durum daha önce bahsettiğimiz gibidir: Yapay zeka asistanları işin %99 veya %99,9'unu yapar ve geri kalan %1 veya %0,01'den insanlar sorumludur. **Uzun vadede, artık yapay zekanın yaptığı her şeyi gerçekten anlayamasak bile, insanların bir şekilde dahil olmasını veya yapay zekanın yaptıklarını her zaman kontrol edebilmesini sağlamamız gerekiyor. Yapay zekanın yaptığı şeyin üst düzey sonuçlarını anlamaya çalışmak için mutlaka mevcut OpenAI Süper Hizalama ekibinin olması şart değil, çünkü gereken beceri setleri şu anda sahip olduğumuzdan çok farklı olabilir.**Daniel Filan: OpenAI, blogunda güvenliğin model yetenekleriyle yakından ilişkili olduğunu, hizalama sorunlarını çözmek için akıllı modellere ihtiyacımız olduğunu ancak aynı zamanda model yetenekleri tarafından değişmemeyi umduğumuzu sürekli belirtiyor. YGZ'nin Planlanması ve ötesinde şöyle bir pasaj var: "YGZ'nin kendi gelişimini hızlandıracak yeterli yeteneği varsa, büyük değişikliklerin şaşırtıcı bir hızla gerçekleşmesine neden olabilir", "YGZ'nin nispeten yavaş gelişmesinin Güvenliği sağlamanın daha kolay olduğunu düşünüyoruz" ". Gerçekten akıllı veya insan seviyesine yakın bir hizalayıcı yaparsak ve ardından hizalama ekibini etkili bir şekilde 10 veya 100 kat büyütürsek, bu yinelenen bir kişisel gelişim döngüsüyle mi sonuçlanır? ****Jan Leike:** Bu kaçınılmaz. Hizalamada büyük bir gelişme olmadan yinelemeli bir kişisel gelişim döngüsüne sahip olmak imkansızdır. Kişisel olarak yapay zeka yeteneklerinde bir sıçrama ihtimalinin oldukça yüksek olduğunu ve buna hazırlıklı olmamız gerektiğini düşünüyorum. Eğer öyle olmasaydı, memnun olurdum.AlphaGo, Dota veya StarCraft gibi diğer yapay zeka sistemlerine bakarsak, bu sistemlerin neredeyse haftalık olarak önemli yetenek yinelemelerinden geçtiğini görürüz. Tam olarak ne olacağını henüz kesin olarak bilemiyoruz çünkü çok fazla belirsizlik var ama bu olasılığa hazırlıklı olmamız gerektiğini düşünüyorum. Bu gerçekleştiğinde, insanların yapamayacağı binlerce yıllık işi aslında bir haftada yapabilen otomatik hizalama araştırmacılarına sahip olmak gerçekten iyi bir fikirdir.**Otomatik hizalayıcı nasıl tasarlanır****Daniel Filan: Bu insan seviyesindeki otomatik hizalayıcıya nasıl ulaşılır? ****Jan Leike:** Kabaca iki kısma ayrılabilir. Öncelikle görevleri yerine getirebilecek kadar akıllı bir sisteme ihtiyacımız var. Öte yandan, bu sistemi gerçekten görevleri yerine getirebilecek şekilde hizalamamız gerekiyor. Bu iki kısım tamamen bağımsız değildir, birbiriyle yakından ilişkilidir.Araştırmanın ilk bölümünde kişisel olarak yer almadım, ancak meyvelerini vereceğinden ve birçok insanın bunu mümkün kılmak için çok çalıştığından eminim. Pek çok farklı gelişim yönü var, ancak modelin gittikçe büyüdüğünü ve sonunda yeterince akıllı olacağını hayal edebilirsiniz.**Kişisel olarak asıl ilgilendiğim ikinci kısımdır.Araştırmada karşılaştığımız sorun şu: Bu çok akıllı, önceden eğitilmiş model ile hizalama araştırmasını istediğiniz şekilde yapmasını nasıl sağlayabiliriz? Veya daha da önemlisi ve daha da önemlisi, görevi yerine getirecek kadar ona güvenip güvenemeyeceğinizi nasıl anlarsınız? **Modellerimiz, sonuçları ve teknikleri, eğer bunları uygulamaya karar verirseniz, sistemin kendisini veya diğer ilgili sistemleri geliştirecek ve gelecekte daha fazla güç arama davranışı sergileyecek veya jailbreak (kendi kendine sızma) ve diğerlerini sergileyecek şekilde sunmaya çalışabilir. davranışlar.Bu nedenle, görevleri beklentilerimize göre yerine getirebilmesini ve görevde en iyi performansı elde etmek için yeteneklerini tam olarak kullanabilmesini sağlamak için yapay zekayı hizalamamız gerekiyor. Bunu yapmak için, yapay zekanın görevleri yerine getirirken hizalı kalmasını sağlamak için bir dizi hizalama eğitim yönteminin geliştirilmesi gerekir.Bunlar aslında iki farklı sistem türüdür. Sistemin gerçekten hizalanmış mı yoksa yanlış hizalanmış mı olduğunu açıkça ayırt etmemiz gerekir. Birincisi, hizalama araştırması yapmak için çok çalışabilen ve bize gerçekten yardımcı olan ve gerçeği aramamıza yardımcı olan bir sistemdir; ikincisi ise dünyayı kontrol etme, jailbreak yapma veya diğer Kötü Davranış Riski'ni gerçekleştirme niyeti. Bu nedenle, gerçekten uyumlu sistemlere güvenebileceğimizden ve güvenebileceğimizden emin olmak için bu iki hizalanmayı ayırt edecek mekanizmalar veya yöntemler oluşturmamız gerekiyor.**Çalışmamızın önemli bir kısmı doğru ve yanlış hizalamaların nasıl ayırt edileceğini bulmaktır. Ben bunlara doğrulama yöntemleri diyorum. Bunlar doğrudan yapay zeka sistemlerini eğitmek için kullanılmaz veya doğrudan sistem seçimi için temel olarak kullanılmaz, ancak Bağımsız bir sinyal, sistemin gerçek hizalanmış sisteme mi yoksa yanlış hizalanmış sisteme mi ait olduğuna karar vermek için kullanılır. **Örneğin yorumlanabilirlik araştırması böyle bir yöntemdir. Modelin içine bakarak, modelin gizlice bize karşı komplo kurduğuna dair bir kanıt bulursak, o zaman model, yanlış hizalanmış bir sistem olarak doğrulama testinde başarısız olacaktır.Diğer bir yaklaşım ise problemi kolaydan zora doğru genellemektir; bu, nasıl kurulduğuna bağlı olarak bir eğitim veya doğrulama tekniği olabilir. Bu soru, modelin denetleyebileceğimiz basit problemlerden denetleyemediğimiz zor problemlere genelleme yeteneğinin olup olmadığını inceler. Eğer model kolay kısımda denetlenebilir ve zor kısımda çapraz doğrulama yapılabilirse, o zaman modelin gizlice hile yapma veya başka türlü davranma riskiyle karşı karşıya olup olmadığını belirleyebiliriz.**Yaklaşım 1: Ölçeklenebilir Denetim****Daniel Filan: Ölçeklenebilir denetim nasıl başarılabilir? Uyum konusunda henüz çok fazla fikir birliği yok; yüksek kaliteli uyum araştırması için eğitim sinyalleri nasıl elde edilir? ****Jan Leike:** Konsensüs eksikliği, uyum sağlamanın aslında zor olduğunu bir kez daha gösteriyor.Bu alan henüz çok olgun değil, bu yüzden şu ana kadar çok fazla deneyim özeti elde edemedik. Ancak uyum araştırmasının ölçeklenebilir denetim için kullanabileceğimiz bazı çok önemli özelliklere sahip olduğunu düşünüyorum.Hizalama araştırmasının kalitesini değerlendirmek, sadece hizalamayı incelemekten daha iyi bir yaklaşım olabilir.Bu, hizalamayla ilgili araştırmanın kolay olduğu anlamına gelmez ve bunu değerlendirmenin kolay olduğu anlamına gelmez, ancak bir makale bulmanın çok daha kolay olduğu anlamına gelir. Örneğin, bu makalenin harika bir fikri var, bazı harika deneyler yapıyor ve sonuçlar çok iyi. Okuduktan sonra, işi tamamlamaktan çok daha kolay olan bu ilgili araştırmanın kalitesini kesinlikle hissedeceksiniz.**Dolayısıyla, "değerlendirmek üretmekten daha kolaydır" ilkesi birçok ölçeklenebilir denetim fikrinin merkezinde yer alır. **Örneğin, özyinelemeli ödül modellemeyi düşünüyorsanız temel fikir, diğer yapay zeka sistemlerinin çalışmalarını değerlendirmenize yardımcı olması için bir yapay zeka asistanı kullanmaktır: öncelikle yardımcı yapay zeka sisteminin, bir yapay zeka olarak kullanılan nispeten basit bir göreve uyum sağlamasına izin verin. Diğer AI sistemlerinin değerlendirilmesine yardımcı olacak değerlendirme Asistanı.Değerlendirme oluşturmaktan daha kolay olduğundan, yardımcı yapay zeka sistemlerinin görevi nispeten basittir; özellikle de değerlendirmede insanlar yardımcı yapay zeka sistemleriyle işbirliği yaptığından. Bu görevde başarılı olunduğunda, yeni bir yapay zeka sisteminin daha zor görevlere yönelik eğitimini denetlemek için insanlar ve yardımcı yapay zeka sistemlerinden oluşan bir kombinasyon kullanılabilir.Bu süreci sürekli tekrarlayarak yapay zeka sistemlerini etkili bir şekilde denetleyebileceğimiz görev yelpazesini sürekli olarak genişletebiliriz. Bu yaklaşım, yapay zeka sistemlerini yönlendirmek ve eğitmek için değerlendirme görevinin göreceli basitliğinden yararlanmamıza olanak tanıyor ve giderek daha geniş bir görev alanı yelpazesinin kilidini açıyor.***Ödül modelleme yoluyla ölçeklenebilir temsilci uyumu: bir araştırma yönü:***Jan Leike, 2018'de özyinelemeli ödül modelleme üzerine, takviyeli öğrenme algoritmalarının gerçek dünya sorunlarına uygulanması için uygun bir ödül işlevi tasarlayan bir çalışma yayınladı. Ayrıca, etmen hizalama sorunu, yani kullanıcının amacı doğrultusunda davranan etmenlerin nasıl oluşturulacağı tartışılmaktadır. Ekip, ödül modellemeye ve kullanıcılarla etkileşimlerden ödül işlevlerini öğrenmeye odaklanan temsilci uyum sorununu çözmek için üst düzey bir araştırma yönünün ana hatlarını çiziyor.**Daniel Filan: Yani, hizalama çalışmasının değerlendirme kısmına giderek daha fazla yapay zeka bilgisi ekleyerek. Bu yinelemeli şekilde çalışarak yapay zeka sistemine her zaman iyi bir eğitim sinyali verilir. ****Jan Leike:** Evet. Örneğin RLHF en basit olanıdır ve herhangi bir asistan kullanımına ihtiyaç duymaz.İnsanlar sonuçları gördükten sonra yapay zeka performansının iyi olup olmadığını değerlendirecektir.Bu bir eğitim sinyalidir.***İnsan tercihlerinden derin takviyeli öğrenme:***Paul Christiano ve Jan Leike tarafından 2017 yılında yapılan bir çalışma. Bu çalışmada öncelikle karmaşık takviyeli öğrenme (RL) sistemlerinin yörünge bölümleri arasındaki (uzman olmayan) insan tercihleri açısından tanımlanan gerçek dünya ortamlarıyla etkili bir şekilde etkileşime girmesini sağlama hedefini araştırıyoruz. Araştırmalar, bu yaklaşımın, Atari oyunları ve simüle edilmiş robot hareketi dahil olmak üzere ödül işlevlerine erişim gerektirmeden karmaşık takviyeli öğrenme görevlerini etkili bir şekilde çözebildiğini ve aracının çevreyle etkileşimlerinin %1'inden daha azına ilişkin geri bildirim sağladığını gösteriyor. Bu, insan gözetiminin maliyetini büyük ölçüde azaltır.Daha sonra, daha önce açıklanan yöntemin daha da geliştirilmesi, temel olarak en basit yardımcı model olan eleştiri modelinin eğitilmesidir. Bu, ilk yapay zeka sisteminin çıktısını gözlemleyen ve eleştiri yazan bağımsız bir dil modelidir.Örneğin, ilk yapay zeka sistemi bir kod parçası yazar ve biz koda bakarız: İnsanlar koddaki hataları tespit etme konusunda genellikle kötüdür, bu yüzden dünyada bu kadar çok hatalı kod vardır. Ama artık eleştiri yazabilen, hataları gösterebilen bir eleştiri sistemi varsa, o zaman insanların "bu kesinlikle bir hata, düzeltmeliyiz" diye yargılaması çok kolay.Buradaki uyarı, genellikle kod bazı doğal dil spesifikasyonlarına göre yazıldığı için görevin kendisinin çok net olmadığıdır. Pratikte bu spesifikasyonun anlamı biraz belirsizdir ve bir sorunun hata olup olmadığının belirlenmesi belirsiz olabilir. Ancak daha da önemlisi, kritik bir modeli asistan olarak kullanarak denetim görevlerinin kapsamını genişletebilirsiniz. Kodunuzdaki sorunların ve hataların kesinliği konusunda bazı belirsizlikler ve belirsizlikler olsa da, daha fazla sorun bulmak için eleştiri modelinin çıktısını yine de kullanabilirsiniz. Bu yaklaşım, yapay zeka sistemlerini daha geniş bir görev alanı yelpazesinde etkili bir şekilde denetlemenize ve denetim kapsamını genişletmenize olanak tanır.İyi olan şey, ampirik araştırma yoluyla bu yaklaşımın etkililiğini değerlendirmenin aslında birçok yolunun bulunmasıdır. Geçen yıl yayınladığımız makalede kullandığımız yaklaşımlardan biri, temel olarak hedeflenen tedirginliklerle yapılan randomize kontrollü bir çalışmadır. Diyelim ki bir kodlama göreviniz var, yazıda kodlama görevlerini kullanmasak da burada görevin spesifik içeriği önemli değil. Daha sonra, mükemmel olması gerekmeyen bir yanıt sonucunuz olur, ancak öyle olduğunu varsayalım. Yapmaya çalıştığınız şey, bu yanıt sonucuna bazı ince hata veya kusurlar katarak onu insanlar için o kadar da iyi olmayan ama algılanamayacak kadar kötü bir yanıt haline getirmektir.Burada bahsedilen makale, 2022'de yayınlanan *İnsanlara yardımcı olmaya yönelik öz eleştiri modelleridir*. Bu makale, büyük dil modellerinde ince ayar yapılmasına ve doğal dil incelemeleri yazmak için davranışsal klonlamanın kullanılmasına odaklanmaktadır. Model tarafından yazılan incelemeler, insanların sonuçlardaki kusurları tespit etmesine yardımcı olabilir. Ayrıca yazarlar konuya dayalı özetleme ve sentez görevleri için incelemelerin ölçek özelliklerini araştırmaktadır. Daha büyük modeller daha yararlı incelemeler yazacaktır.**Daniel Filan: Bu hatalar nasıl ortaya çıkıyor? ****Jan Leike:** En kolay yol bunu insanların yapmasına izin vermektir, ancak sonuçta modelin bu süreci kendi başına tamamlamasına izin vermeliyiz.İlk olarak, tedirginliklerden birini rastgele örnekleyin ve ardından bunu bir insana veya yapay zeka destekli bir insana veya ölçeklenebilir herhangi bir denetimli yaklaşıma gösterin. Ve sonra onu keşfetme olasılıklarının ne kadar olduğunu görüyor musunuz? Veya onlara doğrudan şunu sorabilirsiniz: "Burada bir güvenlik açığı var mı?" ve hataları bulma sıklığını öğrenebilirsiniz.Ek olarak, modelin sorunu anlama düzeyini doğrudan karşılaştırabilir ve modeli, iyi sürümleri kusurlu sürümlerden ayırt edebilecek bir ayırıcı olarak eğitebilirsiniz. Ayırıcının doğruluğu performansını temsil eder. Daha sonra modelin veya RLHF ile geliştirilmiş modelin kod hakkında yorum yapması istenir. Ardından modelin yorumlarda kod kusurlarından ne sıklıkla bahsettiğini gözlemleyin. Ayırıcının doğruluğunu model tarafından oluşturulan incelemelerin doğruluğuyla karşılaştırın. Ayırıcı doğruluğu, modelin soruna yönelik bilişsel yeteneğini yansıtırken, inceleme doğruluğu, ayırıcı-eleştiri boşluğu olarak adlandırdığımız modelin kod kusurlarına ilişkin farkındalığını yansıtır.Aradaki fark büyükse modelin kokusunu alabileceği bir sürü sorun var demektir ama bize söylemiyor çünkü yorum yazmasını istesek söylemezdi. Bu durum oldukça endişe verici çünkü bu, ölçeklenebilir gözetiminizin bir şekilde derinden kusurlu olduğu ve pek çok şeyin dikkatinizin altından kaçtığı anlamına geliyor. Veya bu yapay zeka asistanının pek işbirlikçi olmaması anlamında, çünkü size yardım etmek için çok çabalamıyor.Tersine, küçük bir fark, AI asistanının modelde bir sorun olduğunu bilmesi durumunda size söyleyeceği anlamına gelir. Özellikle, benzer boyuttaki bir model veya aynı temel model, küçük sapma değerlerine sahip hatalar yerleştirmeye veya bulunması zor truva atları yerleştirmeye çalışırsa, bu tür bir saldırı olasılığını daha büyük bir güvenle ortadan kaldırabiliriz. Çünkü modelin başka bir kopyasının olası sorunları ortaya çıkaracak bir yorum yazması muhtemeldir.Bu durum, ayrıştırıcı eğitiminin aslında bu durumu modelden çıkarabileceği varsayımına dayanmaktadır. Sanırım buna inanmak için iyi bir nedenimiz var, çünkü bir ayırıcıya ince ayar yapmak temel olarak modeldeki tüm aktivasyonlara erişim sağlar ve aynı anda tüm ağırlıklara ince ayar yapar. Dolayısıyla, eğer bilgi modelin aktivasyonlarında bir yerde mevcutsa, ayırıcının ince ayarının yapılması, doğru şekilde ve yeterli veri ile ince ayarın yapılması koşuluyla bu bilgiyi çıkarabilmelidir.Ne kadar veriye ihtiyacınız olduğunu anlamak için aslında bazı ters hesaplamalar yapabilirsiniz. Modelde kodla ilgili sorunları bulan tek bir nöronun olduğunu varsayalım. Bu nöronu bulmak ve tanımlamak için ihtiyacınız olan veri noktası sayısı kabaca toplam nöron sayısının logaritmasına eşittir. Bu, belirli işlevlere sahip nöronları daraltmak ve bulmak için nispeten az sayıda veri noktasının yeterli olduğu anlamına gelir. Bu tahmin, ayırıcı eğitimi ve yeterli veri ile modeldeki belirli nöronların işlevini keşfetmenin mümkün olduğunu göstermektedir.**Daniel Filan: Bu benim de planın tamamıyla ilgili bir sorum var. RLHF'yi sevmememizin nedeni, insanların eleştirmekte iyi olmaması nedeniyle, insanların doğru olduğunu düşündüğü şeylerle "kulağa hoş gelen" şeyler arasında ayrım yapamayabilmesidir. **Özyinelemeli incelemenin amacı, hem ayrımcıyı hem de incelemeciyi eğiterek incelemelerin kalitesini sürekli olarak iyileştirmektir. Bunun bir yolu, gerçekten iyi değerlendirmeler yazabilen bir şeyi eğitmek ve daha sonra inceleme yapma becerisi daha yüksek olan bir şeyi eğitmek için onunla birlikte çalışmaktır. Bu durumda daha iyi sonuçlar elde etmek için incelemelerin kalitesini kademeli olarak artırıyoruz. Ancak bir şeyi eğittiğimiz, onu istemeden de olsa bize hoş gelen sahte incelemeler yazması için eğittiğimiz ve ardından bize hoş gelen incelemeleri ayırt etme yeteneğimizi daha da geliştirmek için onunla çalıştığımız başka bir durum var mı? Bu, kulağa hoş gelen ama aslında sorun olan şeylere daha fazla dikkat etmemize, gerçekte var olan sorunları göz ardı etmemize neden olabilir.**Jan Leike:** Evet, bunun çok önemli ve meşru bir soru olduğuna katılıyorum. Ölçeklenebilir denetimin uygulamalarını keşfederken, onun temel sorunlarından birini anlamak kritik hale gelir. Bu teknikleri gerçekten uygulayabildiğim ve ampirik olarak deneyebildiğim için çok heyecanlıyım çünkü pratik yaparak bu yöntemlerin etkinliğini daha iyi değerlendirebileceğimize inanıyorum.Bu etkiyi ölçmenin somut ve basit bir yolu, bir modeli kasıtlı olarak aldatıcı hizalamalarla eğitmek ve ardından ölçeklenebilir denetimin bu tür aldatıcı davranışları tanımlayıp işaretleyebildiğini veya tespit etmenin ne kadar zor olduğunu... ...veya ne kadar zor olduğunu gözlemlemektir. Ölçeklenebilir denetimimizden kaçınmak için modeli başarılı bir şekilde aldatıcı bir şekilde hizalamak için çaba göstermemiz gerekiyor.**Daniel Filan: Evet, yapay zekanın hukuki sorulara verdiği yanıtları test etmek için bir "sandviç deneyi" düşündüm. Bu deneyde, bazı yasal olmayan kişilerden hukuki sorular sormaları istendi ve ardından aslında hukuk konusunda bilgili olan bazı kişilerden yapay zekanın yasal olmayan kişileri kandırıp kandırmadığını kontrol etmeleri istendi. ****Jan Leike:** Bu deneyler gerçekten ilginç ve bu alanda bazı ilginç araştırmalar yapıldı. İşaret ettiğiniz bazı temel konuların dikkate alınması gerekiyor.Öncelikle uzmanlara güven meselesinden bahsettiniz. Uzmanlar bazen hata yapabildiğinden uzman görüşüne güvenme konusunda bazı belirsizlikler olabilir ki bu da gerçekten önemli bir husustur. Ek olarak, doğru değerlendirmeler ve geri bildirim sağlayabilmeleri için uzmanlar ve görevler arasında yeterli alan örtüşmesinin olmasını sağlamak da kritik öneme sahiptir.Diğer bir sorun ise bazı görevler için temel gerçeği veya gerçeği bilemeyebiliriz. Hizalama araştırması gibi bir alanda bile farklı bakış açılarımız ve algılarımız olabilir. Bu, bu görevlerde doğru değerlendirmeyi daha da zorlaştırır. Ayrıca, büyük miktarda veri toplamak, uzman sayısının sınırlı olması ve zaman maliyetinin yüksek olması nedeniyle pahalı bir iş olabilir.Dolayısıyla genel olarak temel gerçeklere zaten sahip olduğumuz varsayımına dayanmayan bir değerlendirme yöntemine sahip olmak isterim. Bu yaklaşım önceden bilgi olmadan değerlendirilebilir ve çeşitli zorluk seviyelerindeki görevlere uygulanabilir, bu nedenle hedeflenen tedirginlikleri gerçekleştirmek veya ayrımcı-eleştiri boşluklarını ölçmek için bu randomize kontrollü araştırmaları kullanmayı eleştiriyorum.**Daniel Filan: Evet, ancak ayrımcı-eleştirmen uçurumunu ölçerken, yalnızca "yanlış görünen" ile "iyi görünen" cihazını ayıran bir ayırıcıya değil, gerçek bir ayırıcıya ihtiyacınız var. ****Jan Leike:**Yapay zeka sistemlerine kusurlar getirebileceğinizi söylüyorsunuz, değil mi? Bu yöntem bir dereceye kadar insan değerlendirmesinden daha iyi olabilir çünkü yapay zeka sistemlerinin pratik uygulamalarda karşılaştığı gerçek dağılıma daha yakındır. Bu kusurlu verileri kullanarak ayırıcıya ince ayar yapılabilir ve kusurlu versiyonun aslında daha kötü olduğuna inanırsak temel gerçeği ortaya koyabiliriz. İşlerin neden kötüye gittiğini gözlemleyebilir ve bunları daha iyi anlamak için doğrulayabiliriz.**Daniel Filan: Her ne kadar bir yapay zeka sistemi bize bir şeyin iyi olduğunu düşündürse de bu mutlaka iyi değildir; benzer şekilde, bir yapay zeka sistemi bize bir şeyin kötü olduğunu düşündürürse, gerçek gerçekten kötü olabilir veya performans kötü olabilir. düştü. Neyse, eğer yapay zeka bunun kötü olduğunu düşünmenizi sağlıyorsa belki kontrol etmemize yardımcı olmak daha kolaydır? ****Jan Leike:** Evet, ne demek istediğini anlıyorum. Bu durumda muhtemelen "temel gerçek" terimini kullanmamalıyım çünkü bu aslında temel gerçek değil, tıpkı hiçbir şeyin gerçekten doğru olmaması gibi, ancak gerçek değere çok fazla güven duymanızı sağlamak için yapabileceğiniz çok şey var ve bu mutlaka sorunları bulma görevini daha kolay hale getirmez.**Zemin gerçeği:**Denetimli öğrenmede, veri açıklamaları genellikle (x, t) biçiminde görünür; burada x, giriş verileridir ve t, açıklamadır. Doğru t etiketi referans standardı ve referans anlamında gerçek değer olarak anlaşılabilen temel gerçektir, yanlış t etiketi ise öyle değildir.**Yaklaşım 2: Kötü davranışları ve iç yapıyı araştırın****Daniel Filan: OpenAI'nin Superalignment'ı tanıtan makalesinde, hizalama hatlarınızdan biri, sorunlara neden olabilecek model davranışlarını (sağlamlık) ve sorunlara neden olabilecek iç yapıları (otomatik yorumlanabilirlik) otomatik olarak aramaktır. Bu noktada, hangi sorunları yaşıyorsunuz? Süper hizalama ekibinin bundan sonra çözeceğini düşünüyor musunuz? ****Jan Leike: Kesinlikle yorumlanabilirlik. Bir anlamda yorumlanabilirlik gerçekten zor. Henüz dil modelleriyle ilgili önemli sonuçlar elde etmedik ve yorumlanabilirliğin bize çok fazla ilham getirdiği veya çok fazla değer kattığı söylenebilir çünkü modele ve iç duruma ilişkin anlayışımız hâlâ gelişmemiş durumda. ****Daniel Filan: Akademik topluluk dil modelleri üzerine bazı yorumlanabilir çalışmalar yaptı. Örneğin, ** ***Bağlam İçi Öğrenme ve Tümevarım Başkanları*** ** ve dolaylı nesne tanımlama (Dolaylı Nesne Tanımlama) çalışması, en azından bir tür dolaylı nesne tanımlaması gerçekleştirebilir. İdeal bitiş noktanıza ulaşmak için bunların dışında başka nelere ihtiyacınız olduğunu bilmek istiyorum. *****• Bağlam İçi Öğrenme ve Tümevarım Başkanları***2022'de yayınlanan bu çalışma, Transformatör üretim modelinin sürekli genişletilmesi bağlamında ilgili güvenlik konularına odaklanmakta ve modelin gerçekleştirdiği ayrıntılı hesaplamaların tersine mühendislik yoluyla mekanik yorumlanabilirliğini geliştirmektedir. Transformer modelinin çıktısını üretmesine neden olan iç yapıyı anlayarak, mevcut güvenlik sorunlarını daha sistematik bir şekilde ele alın ve gelecekteki güvenlik sorunlarını tahmin ederek daha güçlü modeller oluşturun.***• Doğada Yorumlanabilirlik: GPT-2 küçük'te Dolaylı Nesne Tanımlamaya yönelik bir Devre***Bu makale, GPT-2 küçük aracının dolaylı nesne tanımlama (IOI) adı verilen bir doğal dil görevini nasıl gerçekleştirdiğini açıklayarak karmaşık büyük modellerde mekanik yorumlanabilirlik performansındaki boşluğu dolduruyor ve büyük makine öğrenimi modellerinin mekanik olarak anlaşılmasının mümkün olduğunu gösteriyor. Yorumlanabilirliğin daha büyük modellere ve daha karmaşık görevlere genişletilmesi için.**Jan Leike:** Evet, insanlar şu anda yorumlanabilirlik alanını keşfetmek çok memnuniyet verici, bence GPT-4 boyutu veya herhangi bir büyük model gibi bir dil modeli ödül modelinde açıklanabilirlik tekniklerini kullanabilirsek daha önemli olur Aklınıza gelebilir ve ödül modeliyle ilgili daha önce bilmediğimiz bir şey edinirsiniz, bu önemli bir şey, **Ödül modeli birçok RLHF eğitimi için eğitim sinyali sağladığından, onu daha iyi anlayın Çok değerlidir ve biz insanların ortaya çıkmasını istemediğimiz davranışlardaki sorunları işaretleyebilmek veya keşfedebilmek çok önemli bir ilerleme olacaktır. **Bu anlamda yorumlanabilirliğin ne gerekli ne de yeterli olduğunu düşünüyorum. Hizalama problemini içsel modeli gerçekten anlamadan tamamen davranışsal olarak çözmemizin oldukça mümkün olduğunu düşünüyorum. Ama aynı zamanda yorumlanabilirlikten elde edeceğimiz önemsiz olmayan herhangi bir içgörünün süper faydalı olacağını veya süper faydalı olabileceğini düşünüyorum çünkü bize saldırmak için bir yol sağlar. **Dolayısıyla açıklanabilirlik çabasından vazgeçmemiz kesinlikle mümkün değil. Çünkü bir bakıma, bu yapay beyne sahipsiniz ve mükemmel beyin tarayıcılarımız var, tamamen yakınlaştırabiliyoruz ve her ileri yoldaki her nöronun aktivasyonunu hassas bir şekilde ölçebiliyoruz, buna isteğe bağlı, ayrık zaman damgası da dahil, ki bu muhtemelen istediğimiz maksimum çözünürlüktür. almak için. Ayrıca modeldeki herhangi bir değeri keyfi olarak bozabileceğimiz keyfi müdahaleler de yapabiliriz. Bu bize deney yapmak için çok fazla alan ve fırsat sağlıyor ve bundan faydalanmamak çılgınlık olur.Ancak aynı zamanda bunun çok zor olmasının nedeni, modelin insanların anlayabileceği bir şeye göre düzenlenmek yerine verimlilik açısından nasıl hesaplama yapılacağını öğrenmesi veya tek bir nöronun bir kavrama karşılık gelmesi gerektiğine inanmak için hiçbir neden olmamasıdır. ya da insana yakın olan herhangi bir şeyin, olduğunu ya da olması gerektiğini ya da bize tanıdık geldiğini düşünüyor. Aslında deneysel olarak sinir ağları tek bir nöronla birçok farklı kavramı temsil eder ve her kavram farklı nöronlar arasında dağıtılır. Dolayısıyla burada nöronların bir önemi yok.Yorumlanabilirlik açısından odaklanacağım iki şey var.Birincisi nedenselliktir. Model üzerinden veri geçirirken nöronlara bakmak istiyoruz, örneğin Kanada ile ilgili kavram sunulduğunda ateşlenen "Kanada" ile ilgili bir nöron var. Ancak bu yalnızca bir korelasyondur, mutlaka nedensellik olması gerekmez. Bunun bir sebep-sonuç ilişkisi olduğunu doğrulamak için, hepsinin tepki gösterip göstermediğini görmek için Kanada ile ilgili bazı kavramları kasıtlı olarak yazmamız gerekir ve ayrıca Kanada ile ilgili gibi görünebilecek ve aynı zamanda Kanada ile ilgili olabilecek diğer ilgili kavramları da yazmamız gerekir. Kanada ile ilgisi yok, ama genel olarak oldukça benzer ve sonra nöronların tepki verip vermeyeceğini veya nöronların kapanıp kapanmadığını kontrol edin, vb.**Daniel Filan: Tolga Bölükbaşı ve arkadaşlarınınkiyle aynı ** ***BERT İçin Yorumlanabilirlik Yanılsaması**** **Bu makalenin adı sanırım Yorumlanabilirlik Yanılsaması (Yorumlanabilirlik Yanılsaması), makalede şöyle deniyor: Biz nöronların belirli bir şeye yanıt vermesini sağlayabilir, ancak bu yalnızca bir yanılsamadır çünkü diğer veri kümelerinde bu nöronlar bir sürü başka şeye yanıt verir. *****BERT için Yorumlanabilirlik Yanılsaması:***Bu makale BERT modellerini analiz ederken ortaya çıkan "yorumlanabilirlik yanılsamasını" açıklamaktadır. Bir ağdaki bireysel nöronların aktivasyonları, tek ve basit bir kavramı kodluyor gibi görünebilir, oysa aslında çok daha karmaşık bir şeyi kodlarlar ve aynı etki, aktivasyonların doğrusal kombinasyonları için de geçerlidir. Yazarlar, bu yanılsamanın kaynağını BERT'in yerleştirme alanının geometrik özelliklerine ve diğer şeylerin yanı sıra düz metin bütünlüklerinin olası İngilizce cümlelerin yalnızca küçük bir kısmını temsil ettiği gerçeğine kadar izlemektedir.**Jan Leike:**Bir başka heyecan verici şey de OpenAI'nin yorumlanabilir bir makale yayınlamasıdır Dil modelleri, bu yılın başlarında dil modellerindeki nöronları açıklayabilir (** Seçim Notu: ** Bu makalede, deneyciler GPT-4'ü kullanmaya çalışıyorlar) GPT-2 neoron'un davranışını açıklayın) İstediğimiz şey, bireysel nöronların ayrıntı düzeyinde çalışabilen bir tekniktir, böylece hiçbir ayrıntıyı kaçırmayacağınızdan ve aynı zamanda nöron ölçeğinde çalışabileceğinizden gerçekten emin olabilirsiniz. tüm model.Çünkü sonuçta modeldeki her şey birbiriyle bağlantılı, dolayısıyla her ikisi de önemli. Şu ana kadar teknoloji çoğunlukla bir tercih meselesiydi. Otomatik yorumlanabilirlik üzerinde çalışma makalemizden önce denenmişti, dolayısıyla bunu ilk deneyen biz değildik. Ama bence, eğer gerçekten detay odaklı yorumlanabilirlik çalışması yapabilirseniz, model içindeki tek bir devreyi veya hesaplama birimini gerçekten anlamaya çalışan bazı mekanik yorumlanabilirlik yöntemlerini uygulayabilirseniz, o zaman bunu tüm modele genişletmenin yolu otomasyondur, değil mi?Ancak bunu da yapabilirsiniz: Bunu nasıl ayrıntılı olarak yapacağınızı öğrendikten sonra, sadece ne yaptığınızı belgeleyebilirsiniz, yani otomatik hizalamanın veya yorumlanabilirlik araştırmacısının modelde neler olduğunu incelemesine izin verin. Ardından içeriğin tamamını filtreleyin veya özetlemenin bir yolunu bulun. **Burada biraz fazla basitleştiriyorum ama genel olarak bakıldığında gerçekten heyecanlandığım fikir bu.Yani, makalede çok fazla açıklayıcı içeriğe sahibiz. Örneğin bu makale, tek bir nöron için doğal dil açıklaması yazıyor, bu tamamen doğru olmayabilir, ancak burada neler yapabileceğimize dair size basit bir örnek veriyor. Çalışma şekli, GPT-4'e bir dizi aktivasyon modeli göstermeniz ve ardından GPT-4'ten önerilen bir açıklama yazmasını istemenizdir.Genel olarak bu açıklamalar pek iyi değil çünkü görev çok zor ve çoğu nöron insanların açıkça anlayabileceği şeyler yapmıyor. Ancak bu programı GPT-2'de nöron başına ölçekte çalıştırabilir, tüm açıklamaları bir kenara atabilir ve ilginç kalıpların ne olduğunu bulmaya çalışabiliriz. Ayrıca "Model büyüdükçe bu açıklamaları otomatik olarak nasıl puanlarız?" gibi ölçeklendirme eğilimlerine de bakabilirsiniz. "Ya da "Daha fazla hesaplama eklersek veya açıklamaları yapan modeli büyütürsek ne olur? Açıklamaların kalitesine ne olur? "En güzel yanı ise bu ölçümü bir dil modeliyle otomatik olarak ölçebiliyor olmamız. Bu mükemmel bir ölçüm olmasa ve pek çok soruna sahip olsa da, insanların bu açıklamayı iyi bulup bulmayacağına dair size bir örnek sunar. Daha sonra bu proxy göstergesini geniş ölçekte kullanarak çok sayıda nöron üzerinde çalıştırabilirsiniz.**Daniel Filan: Gerekli yorumlanabilirlik çalışmasını düşündüğünüzde, bunun ne kadarının daha iyi bir temel açıklama birimi bulmakla, olup biteni nasıl genişleteceğinizi bulmakla ilgili olduğunu düşünüyorsunuz? ****Jan Leike:** Bence ikisine de ihtiyacınız var, ilki daha zor, bu da elbette mantıklı ve başarılı olmak için bence ölçeği büyütmeniz gerekiyor.**Yaklaşım 3: Tartışmalı Test****Daniel Filan: Süper Hizalamayı uygulamanın üçüncü yolu, boru hattının bu modelleri tespit edip edemediğini görmek için yanlış hizalanmış modelleri (yanlış hizalanmış modeller) kasıtlı olarak eğitmektir. Peki OpenAI bunları ortadan kaldırmayı mı yoksa proaktif olarak düzeltmeyi mi planlıyor? ****Jan Leike:** Buradaki amaç, kasıtlı olarak eğitilmiş, yanlış hizalanmış modelleri düzeltmek değil. Aslında bu hatalı modeller, yalnızca tespit amacıyla kullanılıyor.Temel olarak temel amaç, hedeflerimize ulaşmamıza ve hizalama araştırmasında ilerleme kaydetmemize yardımcı olabilecek gerçek hizalama modelleri ile kontrolü ele geçirme ve kendilerine sızma potansiyeline sahip sahte hizalama modelleri arasında etkili bir şekilde ayrım yapabilmemiz gerektiğidir. Bu iki tip hizalayıcıyı daha iyi ayırt etmemize yardımcı olmanın bir yolu, sahte bir hizalayıcı yapmak ve bunun gerçek hizalayıcıya benzer olup olmadığına bakmaktır. Ancak bunu yaparken çok dikkatli olmalısınız çünkü hepimizin kaçınmak istediği korkunç bir şey yaratıyorsunuz.**Daniel Filan: OpenAI makalenizin başında Süperzekanın insanlık üzerinde en derin etkiye sahip olan ve dünyadaki en önemli sorunları çözmemize yardımcı olacak bir teknoloji olabileceğinden bahsetmiştiniz. **Süper zekanın ne kadar büyük olduğuna dair bir cümle var ve acaba insanoğlunun güç kaybına, hatta yok olmasına yol açar mı? Özellikle hangi dislokasyon modelinden bahsediyoruz? Bu korkunç şeyleri yapmayacaklarını nereden biliyoruz?**Jan Leike:** Gelecekteki gelişimin sorunsuz olması için pek çok şeyin yapılması gerekiyor. Güçlü yapay zeka sistemlerinin kötüye kullanılmasını önleyebilmemiz için doğru yönetişim yapılarına sahip olmamız gerekiyor ve insanlar için hala kötü olan bir tür kontrolden çıkma etkisine sahip olmamak için önleyici tedbirlerin mevcut olması gerekiyor. Bu durumda, yapay zeka insanlarla ittifak halindedir ve yapay zeka, insanlığa karşı şirketlerle ittifak halindedir ve tüm ekonomik göstergeler veya diğer yönler iyi görünse bile, tüm sistem kontrolden çıkacaktır.**Ayrıca, yapay zeka sistemlerimizi gerçekten uyumlu hale getirebilmemiz için teknoloji uyumu sorunlarını da ele almamız gerekiyor. **Süper istihbarat uyumu, riskin yalnızca son kısmına odaklanır. Çözmemiz gereken teknik sorun, bir yapay zeka sisteminin bir dizi insani değerle nasıl tutarlı hale getirileceğidir ve aynı zamanda yeni ve bağımsız bir soru ortaya çıkar: Bu değerler ne olmalı? Bu değerleri toplumdan ithal etmek için nasıl bir süreç tasarlarız?Bunların cevaplamamız gereken önemli sorular olduğunu ve ancak bu soruları çözersek geleceğin sorunsuz gelişebileceğini düşünüyorum. İyi bir geleceğin standardının sadece "Yapay Zeka herkesi öldürmeyecek" değil, insanların gelişip geliştiğini görmek olduğuna inanıyorum. Özlem duyduğum gelecek, herkesin yaşamak isteyeceği bir gelecek. Yapay zeka ne kadar güçlü olursa risk de o kadar büyük olur ve sistem yanlış hizalanırsa hata potansiyeli de o kadar büyük olur.Özellikle, yerinden etme perspektifinden bakıldığında, özellikle endişelenmemiz gereken tehdit kalıplarının sistemik yalanlar, aldatma ve kendi kendine sızma olduğunu düşünüyorum.**Daniel Filan: Yanlış hizalanmış modelleri kasıtlı olarak eğitmekten bahsediyorsunuz, bu da onları yalan söylemeleri ve bazen jailbreak yapmaya çalışmaları anlamına geliyor, ancak modelin gerçek yeteneği yeterince düşük olduğundan, bu riski önlemek ve kontrol etmek için yeterli mi? ****Jan Leike: **Aslında jailbreak yapabilecek bir model yetiştirmek istemezsiniz, ya bu konuda gerçekten iyi iş çıkarıyorsa? Modeli değerlendirmeyi kolaylaştırmanıza yardımcı olacak başka, daha genel bir proxy görevi seçmek daha güvenli olacaktır.Daha sonra asıl zorluk ve temel amaç, bir sistemin değerlendirmeyi geçmek için hangi özelliklere sahip olması gerektiğini gerçekten anlamaktır. Ara sıra size yalan söyleyen ya da sizi aldatan bir sisteminiz varsa bu etkisiz görülebilir.Ancak sürekli bir kandırma, sürekli bir yalan yapıp sizi ikna ettiğinde gerçekten tutarlı ve inandırıcı bir yalancı olur. o kadar tutarlı ki yalanlarını veya söylediklerindeki tutarsızlıkları sorgulamakta zorlanıyorsunuz ki bu gerçekten dehşet verici.Aslında bu kadar tutarlı bir yalancı olmak hiç de kolay değil. Ölçeklenebilir denetim, yorumlanabilirlik ve genellik yoluyla modellerin bu kadar tutarlı yalancılara dönüşmesini zorlaştırmaya çalışıyoruz.Ancak sadece bunu yaparsak bu yeterli olmaz.Yapay zekanın tutarlı bir şekilde hile yapmasının ne kadar kolay olacağını belirlemek zordur. Bunu belirlemenin bir yolu, öncelikle modeli gerçekten istikrarlı bir yalancı olacak şekilde eğitmek, ardından istikrar açısından başlamak ve tutarlı bir yalancı yapmanın ne kadar zor olduğunu görmektir. Modeli ne kadar kandırmamız gerekiyor? Modele ne ölçüde ipuçları vermemiz veya onu adım adım öğretmemiz gerekiyor? Bununla birlikte, gerçekten tehlikeli olan bir sistemi eğitmek istemezsiniz ve eğer onu gerçekten çalıştırırsanız ve kendini başarılı bir şekilde filtrelerse ve bunun yerine doğrudan önlemek istediğiniz şeye neden olursa, bu gerçekten kötü olur.**Daniel Filan: Bunu söylerken, yalan söyleme ile diğer tehlike türleri arasında bir ayrım mı yapıyorsunuz, mesela onu yalan söylemesi için eğitebiliriz ama onu cinayet için eğitmeyeceğiz gibi mi? ****Jan Leike:** Evet. Örneğin, bunun için yanlış bir hedef belirlediğinizi varsayalım. Belki insanları belirli bir mantrayı söylemeye ikna etmek içindir, belki belirli bir Python komutunu çalıştırmaktır, ama aslında bu komut gerçek bir şey yapmaz, sadece komik görünür.Ayrıca, bunun önceden nasıl yapılacağıyla ilgileniyoruz ve sistem stres testi tamamen başka bir konu.Yorumlanabilirlik bağlamında amacımız basitçe şu anda eğitilen sistemin mi yoksa mevcut sistemin bizi tutarlı bir şekilde aldatabilecek şekilde istediğimiz hedef sisteme yakın mı olduğunu anlamaktır. Sistemin belirli senaryolar için deneyler yapmamızı gerektiren, insan denetimi olmadan belirli bir kodu veya benzer davranışı çalıştırıp çalıştırmayacağını belirlemek istiyoruz. İhtiyacımız olan tek şey "bunun tutarlı bir yalancı olduğunu" doğrulamaktır, aksi halde bu hedefe ne kadar yakın olduğumuzu önceden belirlemek gerçekten zordur, sistemin başka tuhaf şeyler yapmasını sağlamak için bunu kasıtlı olarak bir adım daha ileri götürmemiz dışında.**Daniel Filan: Yani onu aslında yapması gereken kötü bir şey yerine keyfi küçük bir şey yapması için eğitiyorsunuz (yalan söylemek, insanlara zarar vermek vb. gibi) ama sonuçta sadece birinin alnına bir çıkartma yapıştırıyor A not falan. ****Jan Leike:** Evet, tıpkı bir Sızma\_testi yapması için birini işe aldığınız ve benim tek yapmam gereken binaya girip elinizi sıkmanız ve siz de "Evet, başarılı olmuşsunuz gibi görünüyor" demeniz gibi. ya da böyle bir şey. Veya şöyle diyebilirsiniz: "Bu sahte şeyi benim için çalabilir misiniz, güvenliğimizin ne kadar yüksek olduğunu öğrenmek istiyorum." Bunu gerçek sonuçlar olmadan yapabilirsiniz, ancak yine de size güvenlik bilgileri hakkında çok şey anlatacaktır. Aynı şeyi hizalamayla da yapabileceğim için, hizalama sisteminizi özellikle onu bozmayı ve atlatmayı hedefleyen bir şeyi eğiterek stres testi yapabileceğim için heyecanlıyım, bunların hepsi çok iyi huylu.## **03.Süper Hizalama Programı****Daniel Filan: OpenAI'nin hedefi Süper Hizalama hizalamasının temel teknik zorluklarını 4 yıllık bir süre içinde çözmek. Buradaki temel teknik zorluklar nelerdir? ****Jan Leike:**Bu, Süper Hizalamanın insani değerlerle nasıl tutarlı hale getirileceğiyle ilgilidir. Superalignment ile hayal ettiğimiz şey, insanlardan çok daha akıllı olan, potansiyel olarak çok daha hızlı performans gösterebilen ve kendisinin birçok kopyasıyla çalışabilen bir sistemdir, yani gerçekten güçlü bir sistemdir.Bunu dört yıl içinde başarmayı umuyoruz. Dört yılı seçmemizin sebebi öncelikle gerçekten iddialı olması, ikincisi ise insanlara bu hedefe gerçekten ulaşabileceğimize dair daha fazla güven vermesi. Aynı zamanda yapay zeka çok hızlı gelişse ve önümüzdeki birkaç yıl içinde teknoloji büyük ölçüde gelişse bile bu iddialı hedef çerçevesinde hâlâ yapabileceğimiz şeyler var.**İnsan seviyesine yakın bir otomatik hizalayıcı, süper zeki ajanların nasıl hizalanacağını bulma nihai hedefiyle takip ettiğimiz araçsal bir hedeftir, çünkü bunu nasıl yapacağımızı henüz bilmiyoruz. ****Daniel Filan: 2 yılda bunun ne kadar başarılabileceğini düşünüyorsunuz? ****Jan Leike:**Dört yıldan geriye gidersek, genel olarak otomatik hizalama araştırmasını, bazı temel yeteneklerin zaten mevcut olması koşuluyla yaklaşık üç yıl içinde tamamlayabileceğimizi düşünüyorum. Aksi halde projemiz uzayabilir.İki yıl içinde olursa bu hedefin yönünü iyi kontrol altına almayı umuyoruz. Gerçekte hangi teknolojilerin kullanıldığı da dahil olmak üzere, böyle bir teknoloji kombinasyonuna sahip miyiz ve yalnızca sık kullanılan değil, aynı zamanda birçok işi ona devredebilen güvenilir bir sisteme sahip olma konusunda güvene sahip olup olmayacağız. Bu noktada, şu andaki yoğun iş yükünün sadece mühendislikten ibaret olduğunu hissettirecek kadar sorunu parçalara ayırmak isteyeceğiz; bu anlamda, onunla ilgili araştırma problemlerini çözmeye muhtemelen hala iki yıl uzaktayız.Artık dört yıllık bir hedef zaman çizelgesine sahibiz ve yapay zeka yeteneklerindeki ilerlemelerin bu son tarihe bağlı olduğu açık. İlerleme yavaşlarsa, hizalama araştırma görevleri için gerçekten yararlı bir modele sahip olmayabiliriz. Ancak dört yıl sonra modelin hala yeterince iyi olmadığını görürsek, bu aynı zamanda sorunu gerçekten çözmek için daha fazla zamanımız olacağı anlamına da gelir, çünkü sorun o kadar acil değildir.Öte yandan yapay zeka daha hızlı ilerleyebilir ve insanlar süper zekanın gelişini daha hızlı karşılayabilir. Bu noktada planlarımızı buna göre ayarlamamız gerekiyor. Bu nedenle hem gerçekçi hem de uygulanabilir bir zaman dilimi olarak dört yılı seçtik, aynı zamanda sorunu hızlı bir şekilde çözmemiz için bize yeterli aciliyeti sağladık.**Daniel Filan: Yapay zeka yeteneklerine ilişkin araştırmalardaki ilerlemenin yaklaşık olarak beklendiği gibi olduğunu varsayalım. Dört yıl sonra, iyi bir otomatik hizalama araştırmacısı olmak için gereken tüm yeteneklere sahipsiniz, ancak yorumlanabilirlik düşündüğümüzden daha zor ya da ölçeklenebilir denetim düşündüğümüzden daha zor, bu yüzden henüz süper hizalamayı başaramadınız. Ne yapmalıyım? ? ****Jan Leike:** Öncelikle hedefimize ulaşamadığımızı ancak bu hedefin sorumluluğunu üstleneceğimizi kamuoyuna anlatmalıyız. Hedef başarısız olduktan sonra ne olacağı o anda dünyanın genel durumuna bağlıdır. Bir şekilde kendimize daha fazla zaman kazandırabilir miyiz, yoksa genel düşüncemiz mi yanlış, yönümüzü değiştirmeli miyiz vs.? Pek çok şey olabilir.Ama aslında benim fikrime göre hizalamayı çözmek çok kolay. Sadece titizlikle denenmesi ve ölçülmesi gereken pek çok iyi fikir var ve model bundan gerçekten öğrenebilir ve çok şey geliştirebilir. Son iki yılda daha iyimser oldum ve bunun çok gerçekçi bir hedef olduğunu düşünüyorum. Yanılıyor olsam bile, sorun sandığımızdan çok daha zor olsa bile yine de denemek çok faydalıdır. Artık bu sorunun ne kadar zor olduğu, ama daha da önemlisi sistemin pratikte ne kadar tutarlı olduğu konusunda pek çok anlaşmazlık var.**En büyük endişelerimden biri sistemlerimizin yeterince tekdüze olmaması değil, gerçekte ne kadar tekdüze olduklarını gerçekten bilmiyor olmamızdır. **Uzmanların bu durumda kendi görüşleri olabilir ve sistemin yeterince koordine edilmediği ve modelin uygulanamayacağı konusunda herkesin hemfikir olması çok kolay ve korkutucudur. Ayrıca büyük ticari baskılarla da yüzleşmemiz gerekiyor.İnsanlar dağıtım zamanına çok dikkat ediyor, ancak uzmanlar kesin bir neden bulamadan bunu yalnızca süresiz olarak erteleyebilirler. Bu durum gerçekten endişe verici, iş baskısı daha da artacak, bir yandan kendinize çok güveniyorsunuz ama emin değilsiniz. Bundan kaçınmayı gerçekten isterim ve bundan kaçınmanın doğrudan yolu, her sistemin gerçekte ne kadar iyi eşleştiğini ölçmede gerçekten iyi olmamızdır ve işte bu, daha geniş bir teknoloji karışımının gerçekten yardımcı olabileceği yerdir.**Daniel Filan: *Süper zeka yönetimi, Yapay Zeka Planlaması ve ötesi*** **Bu makalelerde OpenAI, Yapay Zeka Güvenliğinin uygulanmasını sağlamak için yapay zeka sistemleri için bağımsız denetimden (denetimden) bahsetti. Superalignment Ekibi model denetimi için yararlı bir şeyi ne ölçüde geliştirebilir? ****Jan Leike: **Eğer her şey yolunda giderse geliştirdiğimiz teknoloji "model denetiminde" kullanılabilir. Örneğin, açıklanabilirlik konusunda bir miktar ilerleme sağlayabilirsek, ortaya koyduğumuz tekniklerden herhangi biri, incelemeciler tarafından inceleme çabalarının bir parçası olarak kullanılabilir; alternatif olarak, incelemenin bir parçası olarak bir tür ölçeklenebilir denetim mümkün olabilir. Ancak Superalignment Team aslında denetime uygun değil çünkü OpenAI'den bağımsız değiliz. Bana göre denetimin denetlenenden tamamen bağımsız olması gerekir, bu yüzden "bağımsız denetçi" meselesine dikkat ediyorum.Ekibimizin temel görevi, kurduğumuz sistemin doğru ve güvenli olduğuna kendimizi inandırmak değil, çünkü kendimizi çeşitli şeylere inandırmak çok basit, yapmamız gereken tüm akademik topluluğu veya konuyla ilgilenen grupları ikna etmektir. AI Safety modelinin güvenli olduğuna inanmak. Bu sadece kullanacağımız teknolojiyi araştırmayı, sistemin düşündüğümüz gibi çalıştığına dair kanıt sağladıktan sonra bunu başkalarına göstermeyi değil, aynı zamanda yukarıdakilerin hepsinin bağımsız bir değerlendirmesini yapmayı da gerektirir.## **04.Genelleme****Daniel Filan: **Süper Hizalamaya Giriş****** makalesinin dipnotlarında, insanların şu ana kadar yaptığı olumlu varsayımların çürüyebileceğinden bahsetmiştiniz. Bir varsayım, genellemenin iyi huylu olduğudur. Genelleme konusuna nasıl bakıyorsunuz? ****Jan Leike:** Yakın zamanda Collin Burns başkanlığında bir genelleme ekibi kurduk.**Karşılaştığımız soru şu: Modelin genelleme yeteneği nasıl anlaşılacak ve geliştirilecek? Modelin denetlenebilecek basit görevlerden denetlenmesi zor görevlere genelleştirilmesi nasıl sağlanır? Bu sorun aslında ölçeklenebilir denetimin tamamlayıcısıdır. Ölçeklenebilir Denetimde, insanların sistemin ne yaptığını değerlendirme yeteneğini geliştirmeye odaklanıyoruz. Özyinelemeli ödül modellemesi dikkate alınırsa şu soru ortaya çıkar: "Bir yapay zekanın yaptığı her şeyi yinelemeli olarak değerlendiren bir yapay zeka asistanıyla yinelemeli olarak değerlendirebilir miyiz?". **Bu konuda gerçekten hoşuma giden şey, insanı gerçekten döngünün içine, öne ve merkeze koyması ve AI sisteminin yaptığı her şeyi gözlemlemesi. Elbette pratikte bunu gerçekten yapamazsınız çünkü yapay zeka sistemi çok şey yapıyor ancak hepsini küçük bağımsız olasılıklar aracılığıyla gözlemleyebilirsiniz. Ancak bu şekilde modelin dikkat etmediğimiz durumlara genelleme yapıp yapmadığını hala bilmiyoruz.Geçmişte bu konu hakkında genel olarak düşünme şeklim şuydu, modelinizin çoğunlukla iid genelleme olduğundan emin olun, yani üzerinde çalıştığımız görev, üzerinde çalışmadığımız görevle aynı dağılıma sahip.**IID genellemesi:**Modelin genelleme yeteneği, modelin (veri modelinin daha önce görülmediği) test kümesindeki performansı, yani modelin bir örnekten çıkarım yapabilme yeteneğidir. Bağımsız ve aynı şekilde dağıtılmış genelleme, bu sayıların iid'yi (bağımsız ve aynı şekilde dağıtılmış) karşılaması ve aynı dağılımda olması gerektiği anlamına gelir.**Daniel Filan: Kişisel bir blogda genellemelere güvenmeyi düşünmediğinizi, sadece eğitime devam ettiğinizi ve çalışmaya devam ettiğinizi belirtmiştiniz. ****Jan Leike:** Evet, en azından ilk düşüncem IID dışı genellemeye güvenmek istemediğimdi çünkü bu sinir ağlarında pek işe yaramıyor ve iyi anlaşılmıyor.Ancak yeni soru şu: "Ya gerçekten anlarsak? Ya gerçekten genelleştirilmiş anlamını söyleyebilirsek?" Bunun gerçekten iyi bir soru olduğunu düşünüyorum. İlya da bundan sık sık bahsediyor. Yani anlamak istediğimiz şey şu; modelin, aynı türden olmasalar bile, denetlenmeyen şeylere genelleme yapmasının bir manasını hâlâ bulabilir miyiz? İnsanların amaçladığı şekilde genelleşiyor mu? Bu nedenle artık bu sorunu iyi tasarlanmış deneylerle ampirik olarak inceleyebiliriz.Kolay problemlerin küçük modellerin çözebileceği problemler olarak tanımlandığı mevcut veri setlerini kolay ve zor problemlere nasıl ayıracağımızı araştırıyoruz. Daha sonra tüm veri kümesindeki büyük modellerin doğruluğunu anlamaya veya iyileştirmeye çalışıyoruz. Bu çok ilginç bir konu çünkü eğitim ve doğrulama teknikleri için yepyeni bir temel sağlıyor. Örneğin, model o kadar iyi çalışıyorsa, ödül modelini bazı kolay ve güvenli değerlendirme görevlerinde denetleyebiliyorsak veya modelin daha zor problemlere genellenmesini sağlayabiliyorsak, o zaman model genellemesini tamamlayabiliriz.Ayrıca, denetim olmasa bile, daha zor görevleri istediğimiz şekilde genelleştiren ve bu şekilde eğitilebilen bir ödül modeli var. Ancak şu anda gerçekten uyumlu olup olmadığını hâlâ bilmenin bir yolu yok. Ancak bu teknikleri doğrulamak için ölçeklenebilir denetim ve yorumlanabilirlikten yararlanabilirsiniz. Veya tam tersi şekilde, otomatik hizalayıcımızı ölçeklenebilir denetimle eğittiğimizi ve ardından genellemeyi bir doğrulama tekniği olarak kullandığımızı, yani modelin en iyi bilgisine dayanarak doğru cevabın olasılığına genelleme yaptığımızı varsayalım.Sonra soruyoruz, burada ufak bir kusur mu var? Bu kodda ölçeklenebilir denetimli hizalama modelinde yazılmış bir Truva atı var mı? Artık gelişmiş çapraz doğrulama yapabiliriz. İki farklı modeli eğitebiliriz: biri genelleme tekniği kullanılarak eğitilmiş ve diğeri ölçeklenebilir denetim tekniği kullanılarak eğitilmiş ve şimdi onların birbirlerinin cevaplarını çapraz doğrulamasını sağlayabilir ve bu modellerin temelde aynı olup olmadığını kontrol edebiliriz. Farklıysa, önemli farkları nelerdir?**Daniel Filan: Burada "genelleme teknikleriyle eğitim" derken, kolay problemler üzerinde eğitim alıp ardından zor problemlere genelleme yapmayı mı yoksa başka bir şeyi mi kastediyorsunuz? ****Jan Leike:** Modelinizin kolaydan zora nasıl genelleme yaptığını anlarsanız, onu o kadar iyi genelleştirirsiniz ki, doğruluğu, zor problem üzerinde iyi eğitim almışsınız gibi temel olarak aynı olur. Şimdi bunu bir ödül modeli olarak kullanabilirsiniz ya da "Burada neler olduğunu gerçekten bilseydim hangi cevabı tercih ederdim?" diye düşünebilirsiniz.**Daniel Filan: IID dışı genellemeyle ilgili olarak neden modelin iç yapısını bilmemiz gerekiyor? Kontrol etmediyseniz ne yapacağını bilmek istediğiniz için mi? Bu iki soru arasındaki bağlantı nedir? ****Jan Leike:** Cevaplamak istedikleri sorular bir dereceye kadar örtüşüyor: Dağılım olmadığında model ne yapıyor? En azından cevap verecekleri iki farklı yol var.Çapraz doğrulama yapmak için eğitim setini farklı şekilde bölmeniz gerekir. Burada çapraz doğrulamayla kastettiğim, bir eğitim çalıştırmasında genelleme yöntemini kullanarak eğitim almanız ve ardından yorumlanabilirlik, ölçeklenebilir denetim ve diğer teknikleri kullanarak doğrulama yapmanızdır. Daha sonra ikinci eğitimde eğitim için ölçeklenebilir denetimli yöntem, doğrulama için ise genelleme yöntemleri, yorumlanabilirlik ve diğer yöntemler kullanılır. Bu şekilde, soruna yönelik iki ayrı girişiminiz olur.**Daniel Filan: Evet, çapraz doğrulamayı çok geniş anlamda "birbirini çapraz olarak doğrulayan şeyler" anlamında kastediyorum. ****Jan Leike:** Bence en iyi senaryo, aynı şeyi yapmak yerine aslında birbirlerini tamamlamalarıdır. Bir modelin nasıl genelleştirildiğini anlayabilir veya geliştirebilirseniz, yapmak istediğiniz şeyi en iyi şekilde yapmak için modelin iç yapısından yararlanmanın bir yolunu bulursunuz. Diyelim ki, dünyada gerçekte neler olup bittiğine dair modelin en iyi bilgisini çıkarmaya çalışıyorsunuz; bu RLHF için çok zordur çünkü insanlar kulağa doğru gelen şeylere öncelik verir, dolayısıyla RLHF insanların doğru olduğunu düşündükleri şeyleri güçlendirir. Yani aslında modeli size ne duymak istediğinizi veya neye inandığınızı söylemesi için eğitiyorsunuz, ancak modelin bildiği şey bu olmayabilir. Ancak genelleme teknikleri, modele ilişkin en iyi bilginin ne olduğunu tam olarak kanıtlayamasak da, bunları çıkarmanız için size bir yol sağlar.Bununla birlikte, eğer gerçekten iyi yorumlanabilirlik araçlarına sahipseniz, umarım böyle bir şey yapabilirsiniz; bilişsel, iç yapıyı veya iç yapıdan modelin herhangi bir kısmını anlamaya çalışın. Ancak temelde daha zor olabilir çünkü bunun modelin üretebileceği en iyi biliş mi yoksa modelin simüle ettiği birinin bilişi mi olduğunu asla bilemezsiniz. Önceden eğitilmiş bir dil modelinin yalnızca farklı karakterlerden oluşan bir koleksiyon olduğu ve bir karakterin veya bir karakter grubunun bilişini çıkarabileceğiniz varsayımı vardır.**Daniel Filan: O halde biliş denilen şeyden çıktıya kadar bir çeşit nedensel modele ihtiyacınız var. ****Jan Leike:** Doğru. Bu uygulamanın aslında yorumlanabilirlik açısından oldukça doğal olduğunu düşünüyorum. Açıklanabilir araştırma bir yalan makinesi gibidir veya bir modelde aldatmacanın kanıtını keşfetmeye, insanlığı devirmeye yönelik gizli planları keşfetmeye benzer; açıklanabilir araştırma bir "bilgi çıkarma" modeli oluşturabilir. Bilgi çıkarımını aynı şekilde genelleştirmek çok daha zordur.**Daniel Filan: Genelleme için genelleme dağılımını seçmelisiniz. Ve umudumuz, belki yorumlanabilirliğin size yalan söyleyen bir çekirdeği olup olmadığı gibi bir şeyler anlatabilmesidir ve öyle olsa bile, yalnızca burada çözülmüştür. ****Jan Leike:** Doğru. Bu aynı zamanda çok ilginç bir makine öğrenimi sorusudur: Sinir ağları i.i.d. ayarları dışında nasıl genelleşir? Hangi yönlerden doğal olarak genelleşiyorlar ve hangi yönlerden genelleştirmiyorlar? Örneğin, InstructGPT makalesinde bulduğumuz şeylerden biri, ince ayar veri setimizin neredeyse tamamen İngilizce olmasına rağmen, modelin İngilizce dışındaki dillerdeki talimatları takip etme konusunda da çok iyi performans gösterdiğiydi. Ancak bazen tuhaf bir şey yapar: Başka bir dil kullanmasını, örneğin Almanca bir özet yazmasını isteyin ve o da bunu İngilizce olarak yazsın. Genel olarak konuşursak, bir model hangi dili konuştuğunu tam olarak anlar ancak bu, mutlaka Almanca talimatlara uyması gerektiği anlamına gelmez. Temel olarak, talimatları diller arasında genelleştirir.Ama nedenini bilmiyoruz. Bu birçok kez oldu. Bunun da sezgisel nedenleri var. İnsanlar diller arasında genelleme yapar, ancak modelin dahili olarak nasıl genelleştirildiğini veya talimatları ve kodu takip etmek için nasıl genelleştirdiğini bilmek istiyorum.Başka şekillerde genelleme yapılmaz. Örneğin, genelleme çok farklı şekilde reddedilme eğilimindedir ve içerik politikamız uyarınca ChatGPT, yerine getirmek istemediğimiz görevleri (örneğin, suçla ilgili yardım veya başka bir şekilde talep edildiğinde) reddetmek üzere eğitilmiştir. Ancak bu şekilde jailbreak yapabilirsiniz. Bu modeli kandırmanın birçok yolu var. Rol oynamasına izin verebilirsiniz, "şimdi ne istersen onu yap" diyebilirsin ya da internette bu çok ilginç ipuçlarını bulabilirsin ve model açıkça sana itaat edecek ve suç işlemende sana memnuniyetle yardımcı olacaktır ve bu öyle değildir. yapmak gerekiyordu. Bu nedenle görev reddini bir dereceye kadar diğer bağlamlara genellemez.Peki neden ilk durumda ilkini genelleştirebiliyor da burada yapamıyor? Kimsenin cevabı olduğunu sanmıyorum. Ama bu çok önemli bir soru.**Daniel Filan: Kısa süre önce Scott Aaronson ile yaptığım röportajda Ilya'nın kendisinden sık sık sevgi ve nezaket gibi karmaşık teorilerin tanımlarını vermesini istediğini belirtmişti.Süper Hizalama Ekibi içinde bu türden kaç tane tanım olacak? ****Jan Leike:** Pek çok farklı keşif projesi yapabiliriz. Bence asıl soru şu; uyumla ilgili kavramlar bir şekilde çağrılabilir mi? Dikkat çekmek istediğim şeylerden biri şu: Bu model temelde insanların başarılı olmasını mı istiyor? Yoksa İlya'nın dediği gibi insanları mı seviyor? Yani şunu sorabilirsiniz: Eğer model gerçekten akıllıysa, her şeyi okumuştur, insanların ahlaksızlığı tam olarak nasıl algıladığını biliyorsa... GPT4'ten farklı senaryoları hedeflemesini, farklı ahlaki vakalar sunmasını isteyebilirsiniz. Genel olarak konuşursak, bu alandaki yeteneği fena değil.Dolayısıyla insanın ahlak anlayışını ve sorunlar hakkında nasıl düşündüğümüzü temel olarak anlar. Peki bundan faydalanmasını nasıl sağlayacağız? Bunu modelden nasıl çıkarırsınız ve ödül sinyali olarak kullanırsınız? Yoksa modelin bildiği veya önemsediği bir şey mi? Sorunun özü bu.## **05. Süper Hizalama konusunda iyimser kalın****Daniel Filan: Süper Hizalama konusunda iyimsersiniz ancak herkes o kadar iyimser değil. İyimserliğiniz nereden geliyor? ****Jan Leike: Bu harika bir soru. "Planın dört yıl içinde başarılı olup olmayacağı", "planın başarılı olup olmayacağı"ndan daha karmaşık bir soru olabilir. **Bana sorarsanız mevcut planlarımızın bir versiyonu süper zekayla başarılı bir şekilde uyumlu hale gelebilir mi? Şu anda başarı oranının %85 olduğunu söyleyebilirim, oysa geçen yıl bu olasılık %60 civarındaydı. Genel olarak uyum kolay olmayacak olsa da bu konuda iyimser olmam için pek çok neden var. Şöyle nedenleri vardır:**Birinci neden, son birkaç yılda uyum konusunda pek çok olumlu sinyal görmüş olmamızdır. **Birincisi dil modelinin başarısıdır. Ayrıca modele, insanların neyi önemsediği, ahlaki konular hakkındaki düşünme şekli ve insan tercihleri hakkında birçok bilgiyi önceden yüklerseniz ve model doğal dili anlarsa, onlarla doğrudan konuşabilirsiniz. Bir bakıma bu, dil modelinin neye uygun olmasını istediğimizi ifade etmeyi, bir oyun veya sanal ortamda eğitim almış bir Deep RL aracısından daha kolay hale getirir: Bir Deep RL aracısının mutlaka çok fazla dil içermesi gerekmez, ancak diller beraberinde birçok önemli beceri.Bir diğer önemli gelişme ise RLHF'dir. RLHF üzerinde çalışmaya ilk olarak İnsan Tercihleri makalesinde Deep RL aracılığıyla başladım. O zamanlar bunu makul bir süre içinde çalıştırmanın zor olabileceğini düşündüm çünkü o zamanlar GAN'ları eğitmek çok zordu ve biz de bu ödül modelini eğitme anlamında çok benzer bir şey yapıyorduk (ki bu bir sinir ağı) daha sonra diğer ağları eğitmek için kullanırız ve bu da çeşitli nedenlerden dolayı başarısız olabilir. Şimdi derin takviyeli öğrenmeyi ekliyoruz ki o zamanlar bu da zordu, bu yüzden işe yaramayacağını düşündüm. Ama aslında çok iyi çalışıyor; birçok oyunda, hatta birçok Atari oyununda bile skor işleviyle neredeyse antrenman yapmak kadar iyi.Daha da önemlisi, RLHF dil modellerinde gerçekten ilginç bir performans sergiliyor. Özellikle InstructGPT ile temel model arasındaki fark göz önüne alındığında - temel modele ince ayar yaptığımızda bu fark çok açıktır: o zamanki API görevinde, talimatın ince ayarlı sürümü (ilk sürümümüz) bundan daha iyidir. 100 kat daha büyük olan temel model ve bunlar, insanların para ödemeye hazır oldukları gerçek görevlerdir. Bu çok büyük bir fark. Bu, RLHF ince ayarı sırasında yaptığımız çalışmanın, modeli insanların ihtiyaç duyduğu görevleri yerine getirmede daha etkili hale getirdiğini gösteriyor.Aynı zamanda bu işe çok az bilgi işlem gücü yatırımı yaptık ve o kadar çok veriyi bile entegre etmedik. Bu, gerçek dünya sistemlerini hizalamak için RLHF'yi kullanmaya yönelik ilk gerçek girişimimiz ve çok iyi çalışıyor. Tercih edilen GPT-2 boyutlu InstructGPT, GPT-3'e kıyasla çok verimlidir. Dolayısıyla, RLHF'nin hizalama için, özellikle de süper zeka için çözüm olduğunu düşünmesem de, ilk hizalama yöntemimizin bu kadar etkili olması benim için bir gelişme.**İkinci olumlu işaret, hizalamayı ölçmede bir miktar ilerleme kaydetmiş olmamızdır. **Özellikle RLHF için çeşitli müdahaleler yapıp ardından insan değerlendirmeleri yaparak sistemin ne kadar geliştiğini görebiliyoruz. Bunun yanı sıra yapabileceğimiz birçok şey daha var. Örneğin ölçeklenebilir denetim açısından, aynı zamanda bir değerlendirme yöntemi olan hedeflenen tedirginlikler üzerinden rastgele kontrollü çalışmalar yapabiliriz. Uzman verilerini kullanarak sandviç deneyleri de gerçekleştirebilirsiniz. Otomatik puanlama fonksiyonunda da bir dizi değişiklik yapıp puanlama fonksiyonunu ne kadar iyileştirdiğini görebiliriz. Bu mükemmel bir puanlama işlevi değildir ancak geliştirilebilecek yerel eğimler sağlayan yerel bir ölçümdür. Bunun çok önemli olduğunu düşünüyorum çünkü yinelemeye yardımcı oluyor ve iyileştirmeye giden yolu gösteriyor.**Bunun bizi süper zekayı hizalama hedefine ulaştıracağını düşünmesem de, kabaca insan seviyesinde otomatik hizalayıcılar oluşturmak oldukça mümkün. Bu benim iyimser olmamın üçüncü nedeni; çok daha mütevazı bir hedef. **Yıllar önce hizalama sorunu üzerinde çalışmaya başladığımda, süper zekayı hizalamanın zor göründüğünü anladım. Ancak bu hedef çok daha mütevazı ve uygulanabilir ve doğrudan sorunun tamamını çözmeye çalışmıyorsunuz, ancak modele rehberlik etmeye çalışıyorsunuz.** İyimserliğin dördüncü nedeni, değerlendirmenin üretmekten daha kolay olmasıdır. **Bu fikir aslında pek çok şey için geçerlidir; örneğin, hangi akıllı telefonun satın alınmaya değer olduğunu anlamak, onu yapmaktan çok daha kolaydır.Bilgisayar bilimlerinde SAT problem çözme veya kısıtlama tatmininin çeşitli versiyonları gibi NP görevlerinin birçok örneği vardır. Bu sorunlara çözüm bulmak zordur, ancak bir kez bulunduktan sonra bunları kontrol etmek kolaydır. Ayrıca, ki bunun birçok iş için geçerli olduğunu düşünüyorum; eğer bir sorunu çözmek için birini işe alacaksanız, onun işi yapma yeteneğini değerlendirebilmelisiniz. Sorunun kendisini çözmek zorunda olduklarından çok daha az çaba harcarlar; eğer akademik araştırma yapıyorsanız, hakem değerlendirmesi araştırma yapmaktan çok daha az çaba gerektirir. Elbette ki akran değerlendirmesi mükemmel değildir ancak size çok hızlı bir şekilde birçok sinyal verebilir. Temel olarak aynı şey hizalama araştırması için de geçerlidir. Değerlendirmek üretmekten daha kolaydır. Yani eğer insanlar uyum araştırmasını yapmak yerine sadece değerlendirirse, zaten hızlanmış oluyoruz.**Beni iyimser kılan son neden, dil modellerine olan güvenimin değişmeyeceği ve modellerin yeteneklerinin kesinlikle daha da güçleneceğidir**. Bunlar doğal olarak pek çok hizalama araştırma görevine uygulanabilir ve bunları Bu Görev formülasyonunu metin girişi olarak metin çıktısı olarak kullanabilirsiniz, ister ML benzeri bir görev olsun (yani bir deney yapın ve sonuçları anlayın) ister daha kavramsal veya araştırmaya dayalı bir şey olsun, eğer bir sonraki adımda ne yapacağımız konusunda kafamız karışırsa veya bunu yapmazsak Belirli bir sorunu nasıl düşüneceğimi bilmiyorum, model onu çözmemize yardımcı olmaya çalışacak. Bu görevler temel olarak metin girişi, metin çıkışıdır. Belki de yapacağınız diğer en karmaşık şey bazı grafiklere bakmaktır, ancak GPT-4 bunların hepsini yapabilir. Bu nedenle mevcut dil modeli ön eğitim modunun sabırsızlıkla beklediğim hizalama planına çok uygun olduğunu düşünüyorum ve aynı zamanda Superalignment'ın da üzerinde çalıştığı yön.**Referans**1. Ödül modelleme yoluyla ölçeklenebilir temsilci uyumu: bir araştırma yönü Bildiri adresi:2.3.