Musk'ın xAI'si, ilk halka açık araştırma sonucu burada!
Ortak çalışmalardan biri, xAI'nin kurucu üyesi ve Yau Chengtong'un öğrencisi olan Greg Yang'dır.
Daha önce Yange, xAI'deki araştırma yönünün "Yapay Zeka için Matematik" ve "Matematik için Yapay Zeka" olduğunu açıkça belirtmişti.
Öne çıkan noktalardan biri, önceki araştırmasına devam etmektir:
Tensor Programları, GPT-4'te zaten mevcut olan, sinir ağı mimarileriyle ilgili başarıları açıklayan birleşik bir programlama dili.
Seriye ait olan bu yeni makale, "sonsuz derin ağların nasıl eğitileceğine" odaklanıyor.
Bu amaçla, Yange'nin kendisi de X'te özel olarak bir canlı yayın paylaşımı gerçekleştirdi.
Hangi harika içeriğin işarete değer olduğuna bir göz atalım~
Sonsuz Derin Sinir Ağlarının Eğitimi
Basit bir ifadeyle, bu makale artık ağların (ResNet) derinlik yönünde genişlemesini incelemektedir.
Artık ağların, derinlik arttıkça derin evrişimli sinir ağlarının performans düşüşü sorununu çözdüğünü biliyoruz. Ancak ağ derinleşmeye devam ettikçe, iyi bir derin artık ağı eğitmek hala kolay bir iş değildir:
Ağ derinleştiğinde, özelliklerin ölçeği artmaya devam edecek ve bu da ağ kararsızlığına neden olacaktır. Ağı derinleştirdikten sonra, az miktarda iş olmayan hiperparametreleri yeniden ayarlamak gerekir ...
Yanger ve arkadaşlarının fikri, hem özellikleri öğrenebilecek hem de hiper parametre aktarımını sağlayabilecek derin bir parametrik yöntem bulmaktı.
İlk önce sonsuz genişlikteki sinir ağları için iki sınır düşündüler: ya çekirdek makineleri ya da özellik öğrenenler. İkincisi için, optimal hiperparametreler genişlikle değişmez.
Burada, Tensor Programları çerçevesini kullanarak sonsuz geniş bir ağın sınırlarını analiz ettiler.
Daha önce de belirtildiği gibi, Tensor Programları, Younger'ın uzun vadeli araştırma hedeflerinden biridir: sinir ağı mimarilerini matematiksel dilde tanımlayabilen ve analiz edebilen temel programlama dilini oluşturmak.
Spesifik olarak, Tensör Programları matris çarpım ve aktivasyon fonksiyonlarından oluşur. Young, sinir ağı işlevlerinin bu dilde ifade edilebilmesi durumunda, analiz için otomatik olarak ve tam olarak başlatılabileceğini buldu.
Matematiksel türetme kısmı, burada belirli bir genişleme olmadan, resim tarzını sığ bir şekilde hissedebiliriz...
Bu türev analizlere dayanarak, yazarlar derinlik yönünde hiperparametre transferini gerçekleştirebilen ve farklı derinliklerde hiperparametre ayarını büyük ölçüde basitleştirebilen Derinlik-μP yöntemini önermektedir.
Derinlik-μP aşağıdaki noktaları içerir:
Her bir artık dalın karekökü ve L derinliği ile ters orantılı a/sqrt(L) katsayısı.
Her bir ağırlık matrisinin öğrenme oranı, optimizasyon algoritmasının türüne bağlı olarak L derinliği arttıkça azalır. SGD için öğrenme hızı sabit bir η alır ve Adam gibi uyarlanabilir optimizasyon algoritmaları için öğrenme hızı η/sqrt(L) alır.
Yazarların, artık blok derinliği 1 olduğunda, Derinlik-μP'nin derinlik parametrelendirmesi için en uygun yol olduğunu bulduklarını belirtmekte fayda var, bu da hiperparametrelerin derinlik artışıyla birleşmesini ve derinlik yönünde hiperparametre transferini gerçekleştirmesini sağlayabilir.
Ancak, kalan blok derinliği 2 ≥ olduğunda, hiper parametre geçiş hatası ve eğitim performansı düşüşü yine de meydana gelir.
Buna ek olarak, makale, derin ağlarda kilit bir rol olarak "özellik çeşitliliği" kavramını araştırıyor.
Makalenin bir diğer ortak yazarı Princeton'dan Dingli Yu'dur. Tsinghua Yao Class'tan lisans derecesi ile mezun oldu ve şu anda Princeton'da bilgisayar bilimleri alanında doktora yapıyor.
**Yanger canlı yayında ne dedi? **
Canlı yayın sırasında Yange, izleyicilerin ilgisini çeken soruları da yanıtladı. Orijinal anlamı değiştirmeden, kübitler bazı sorunları çözdü.
S: Birçoğumuz için [makalenin içeriği] kavrayışımızın ötesinde olabilir. Ama merak ediyorum, bahsettiğiniz modelin deneyimleyebileceğimiz ChatGPT ve OpenAI teknolojisinden farkı nedir? Bu makale ile OpenAI'nin sonuçları arasındaki önemli farklar veya yenilikler nelerdir?
Genç: Kısa bir yorum yapayım ve bu özelliklerin şu anda doğrudan pratik uygulamalarla ilgili olmadığını, daha çok doğadaki araştırmalara benzediğini söylemek isterim.
Tabii ki, tüm bunları yapmanın nihai amacı, modeli daha iyi, daha güvenli hale getirmek ve ardından insanlığa fayda sağlamaktır. Şu anda yaptığımız şey, doğrudan bir etkiye sahip olması gerekmeyen amaçlanan etkiyi tanımlamaktır.
Artık aynı gemide olduğumuza göre, ister kısa vadeli ister uzun vadeli uygulamalı araştırma olsun, herkesin yararına çalışmasını sağlamak için elimizden geleni yapıyoruz.
S: Akıl yürütme yeteneğine sahip yapay bir bilgisayar beyni inşa ediyormuşsunuz gibi görünüyor, bu yüzden üzerinde çalıştığınız şey bu mu? Ayrıca ben bir anneyim ve 7 yaşındaki oğlum matematiğe çok meraklı, yapay zeka alanında ilgisini ve hevesini koruyabilecek herhangi bir tavsiyeniz var mı?
Genç: "Yeni web", her gün kullandığınız Google, Facebook, Instagram vb. dahil olmak üzere birçok modern teknolojinin bel kemiği olduğunu düşündüğüm yapay sinir ağlarını ifade ediyor ve bu hizmetler altında bu yapay sinir ağlarını kullanıyor. Bu ağlar yaklaşık altmış ya da yetmiş yıl önce hayvanlardaki ve insanlardaki gerçek sinir ağlarından esinlenerek doğdu, ancak gerçek sinirbilimden saptılar.
Bu ağlar esasen matematiksel problemlerdir, bu yüzden bu yeni matematik problemlerini kavradıktan ve çok fazla analiz yaptıktan sonra bu sinir ağlarını derinlemesine anlayabiliriz.
Nöronların nasıl bağlandığını henüz tam olarak bilmesek de, matematiksel araştırmalar yoluyla, teknoloji şirketlerinin insanların yaşamlarını iyileştirmelerine yardımcı olmak için bu yapay sinir ağlarını optimize edebiliriz.
İkinci sorunuzla ilgili olarak, oğlunuzun matematikle çok ilgilendiğini duymak harika. Bu, teknoloji alanında büyük başarılar yaratmanın ve herkesin hayatını iyileştirmenin temelidir.
Vermek istediğim tavsiye, her şeyden önce oğlunuzun matematiğe olan tutkusunu sürdürmenizdir, ki bu çok önemlidir. Bu tutkuyu kaybettiğinizde, öğrenmeye devam etmek zorlaşır.
Ayrıca neyi sevdiğini gözlemlemeye, öğrenme sürecini ilginç hale getirmeye ve ilgisini daha da artırmaya dikkat edin. Aynı zamanda, işlerin nasıl yürüdüğü ilkesine olan merakını geliştirmek ve çalışma merakı tarafından yönlendirilen bilimsel bir düşünce geliştirmeye çalışmak da gereklidir. Bir şeyleri söküp nasıl çalıştıklarını anlamaya çalışmak gibi.
Kişi evrenin matematiksel gerçeklerini keşfetme hevesini kaybederse, ivme kazanması zor olabilir. Genel olarak, oğlunuzun dünyaya, özellikle de matematik ve bilimin doğasına olan derin ilgisini ve merakını geliştirmenizi tavsiye ederim.
S: Daha soyut bir sorum var. Derinliğin sonsuzluğa yaklaştığı fikrine sahiptiniz ve sonra bu fikri temel alarak bu makaleyi yazdınız. Farklı mimarilere sahip sinir ağlarını düşündünüz mü? Nöronlar ve sayısız katman içeren standart bir mimari değil, tamamen farklı bir şey. Örneğin, bu nöronlar tamamen farklı şekillerde bağlanır, belki bir tür kare?
Genç: Aslında, doğrusal olmama ve çalışmamızdaki katman sayısı ile ilgili içgörüler çok ilkel çalışmalardır. Uygun yapının ne olduğu veya ne tür bir yapı olması gerektiği konusunda kesinlikle araştırılabilecek birçok soru var.
Örneğin, Meta ekibi daha önce rastgele bağlı nöronlara ne olduğunu inceledi ve bazı ilginç sonuçlar elde etti. Yani, burada kesinlikle yapılacak daha çok şey var. Şimdi neyin doğru ya da daha iyi yapılandırılmış olacağını söylemek için gerçekten somut bir cevabım yok.
Jange Hakkında
Hunan Eyaletinde doğan Yang Ge, ilkokuldan mezun olduktan sonra Amerika Birleşik Devletleri'ne gitti ve burada Harvard'da Profesör Chengtong Yau'nun yanında okudu.
△ Yang Ge ve Yau Chengtong, kaynak: Yang Ge Twitter
Yange, 2017 yılında Harvard'dan mezun oldu ve ardından Shen Xiangyang'ın tavsiyesi üzerine Microsoft'a girdi.
Microsoft'ta Yang Ge, Shen Xiangyang tarafından büyük övgü aldı. Birkaç ay önce, "Temel Bilim ve Yapay Zeka" adlı bir forumda, Shen Xiangyang halka açık bir şekilde şunları söyledi:
Microsoft Research genellikle yalnızca doktora öğrencilerini işe alır ve Yange, Microsoft Research'e lisans mezunu olarak girdi. Sadece Microsoft Research'e girmekle kalmadı, aynı zamanda son beş yılda son derece iyi bir performans sergiledi, özellikle GPT'nin geliştirilmesine belirleyici bir katkı yaptı.
GPT-4'ün μTransfer (Tensör Programları serisi) yöntemini kullandığını kendisinin de kabul ettiğini belirtmekte fayda var.
Younger'ın Tensör Programları üzerine araştırması çok erken yaşlardan beri var ve "Tensör Programları I" 2019'da yayınlandı ve Microsoft'ta çalışırken derinlemesine araştırmaya devam etti. Derin öğrenmedeki hemen hemen her hesaplamanın Tensör Programları olarak temsil edilebileceğine inanıyor.
Bu yılın Temmuz ayında Musk, xAI adlı yeni bir şirketin kurulduğunu duyurdu ve Young, xAI kurucu ekibine katılmak ve xAI'nin matematikçisi olmak için Microsoft'tan ayrıldı.
xAI'ye katıldıktan sonra Young, Tensor Programları projesinin uzun vadeli hedefinin, büyük ölçekli derin öğrenmenin "her şeyin teorisini" geliştirmek, yani AI büyük modellerinin davranışını gerçekten anlayabilecek teorik bir kural bulmak olduğunu defalarca açıkladı.
Ayrıca şunları söyledi:
yapay zeka, herkesin matematiksel evrenimizi daha önce hayal bile edilemeyecek şekillerde anlamasını sağlayacak.
Kağıt Bağlantısı:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Musk'ın xAI ile ilgili ilk araştırma sonuçları yayınlandı! Kurucu üyeler Young & Yao sınıfı mezunları ortaklaşa çalıştı
Kaynak: Qubits
Musk'ın xAI'si, ilk halka açık araştırma sonucu burada!
Ortak çalışmalardan biri, xAI'nin kurucu üyesi ve Yau Chengtong'un öğrencisi olan Greg Yang'dır.
Daha önce Yange, xAI'deki araştırma yönünün "Yapay Zeka için Matematik" ve "Matematik için Yapay Zeka" olduğunu açıkça belirtmişti.
Öne çıkan noktalardan biri, önceki araştırmasına devam etmektir:
Tensor Programları, GPT-4'te zaten mevcut olan, sinir ağı mimarileriyle ilgili başarıları açıklayan birleşik bir programlama dili.
Seriye ait olan bu yeni makale, "sonsuz derin ağların nasıl eğitileceğine" odaklanıyor.
Hangi harika içeriğin işarete değer olduğuna bir göz atalım~
Sonsuz Derin Sinir Ağlarının Eğitimi
Basit bir ifadeyle, bu makale artık ağların (ResNet) derinlik yönünde genişlemesini incelemektedir.
Artık ağların, derinlik arttıkça derin evrişimli sinir ağlarının performans düşüşü sorununu çözdüğünü biliyoruz. Ancak ağ derinleşmeye devam ettikçe, iyi bir derin artık ağı eğitmek hala kolay bir iş değildir:
Ağ derinleştiğinde, özelliklerin ölçeği artmaya devam edecek ve bu da ağ kararsızlığına neden olacaktır. Ağı derinleştirdikten sonra, az miktarda iş olmayan hiperparametreleri yeniden ayarlamak gerekir ...
Yanger ve arkadaşlarının fikri, hem özellikleri öğrenebilecek hem de hiper parametre aktarımını sağlayabilecek derin bir parametrik yöntem bulmaktı.
İlk önce sonsuz genişlikteki sinir ağları için iki sınır düşündüler: ya çekirdek makineleri ya da özellik öğrenenler. İkincisi için, optimal hiperparametreler genişlikle değişmez.
Daha önce de belirtildiği gibi, Tensor Programları, Younger'ın uzun vadeli araştırma hedeflerinden biridir: sinir ağı mimarilerini matematiksel dilde tanımlayabilen ve analiz edebilen temel programlama dilini oluşturmak.
Matematiksel türetme kısmı, burada belirli bir genişleme olmadan, resim tarzını sığ bir şekilde hissedebiliriz...
Derinlik-μP aşağıdaki noktaları içerir:
Yazarların, artık blok derinliği 1 olduğunda, Derinlik-μP'nin derinlik parametrelendirmesi için en uygun yol olduğunu bulduklarını belirtmekte fayda var, bu da hiperparametrelerin derinlik artışıyla birleşmesini ve derinlik yönünde hiperparametre transferini gerçekleştirmesini sağlayabilir.
Makalenin bir diğer ortak yazarı Princeton'dan Dingli Yu'dur. Tsinghua Yao Class'tan lisans derecesi ile mezun oldu ve şu anda Princeton'da bilgisayar bilimleri alanında doktora yapıyor.
**Yanger canlı yayında ne dedi? **
Canlı yayın sırasında Yange, izleyicilerin ilgisini çeken soruları da yanıtladı. Orijinal anlamı değiştirmeden, kübitler bazı sorunları çözdü.
S: Birçoğumuz için [makalenin içeriği] kavrayışımızın ötesinde olabilir. Ama merak ediyorum, bahsettiğiniz modelin deneyimleyebileceğimiz ChatGPT ve OpenAI teknolojisinden farkı nedir? Bu makale ile OpenAI'nin sonuçları arasındaki önemli farklar veya yenilikler nelerdir?
Genç: Kısa bir yorum yapayım ve bu özelliklerin şu anda doğrudan pratik uygulamalarla ilgili olmadığını, daha çok doğadaki araştırmalara benzediğini söylemek isterim.
Tabii ki, tüm bunları yapmanın nihai amacı, modeli daha iyi, daha güvenli hale getirmek ve ardından insanlığa fayda sağlamaktır. Şu anda yaptığımız şey, doğrudan bir etkiye sahip olması gerekmeyen amaçlanan etkiyi tanımlamaktır.
Artık aynı gemide olduğumuza göre, ister kısa vadeli ister uzun vadeli uygulamalı araştırma olsun, herkesin yararına çalışmasını sağlamak için elimizden geleni yapıyoruz.
S: Akıl yürütme yeteneğine sahip yapay bir bilgisayar beyni inşa ediyormuşsunuz gibi görünüyor, bu yüzden üzerinde çalıştığınız şey bu mu? Ayrıca ben bir anneyim ve 7 yaşındaki oğlum matematiğe çok meraklı, yapay zeka alanında ilgisini ve hevesini koruyabilecek herhangi bir tavsiyeniz var mı?
Genç: "Yeni web", her gün kullandığınız Google, Facebook, Instagram vb. dahil olmak üzere birçok modern teknolojinin bel kemiği olduğunu düşündüğüm yapay sinir ağlarını ifade ediyor ve bu hizmetler altında bu yapay sinir ağlarını kullanıyor. Bu ağlar yaklaşık altmış ya da yetmiş yıl önce hayvanlardaki ve insanlardaki gerçek sinir ağlarından esinlenerek doğdu, ancak gerçek sinirbilimden saptılar.
Bu ağlar esasen matematiksel problemlerdir, bu yüzden bu yeni matematik problemlerini kavradıktan ve çok fazla analiz yaptıktan sonra bu sinir ağlarını derinlemesine anlayabiliriz.
Nöronların nasıl bağlandığını henüz tam olarak bilmesek de, matematiksel araştırmalar yoluyla, teknoloji şirketlerinin insanların yaşamlarını iyileştirmelerine yardımcı olmak için bu yapay sinir ağlarını optimize edebiliriz.
İkinci sorunuzla ilgili olarak, oğlunuzun matematikle çok ilgilendiğini duymak harika. Bu, teknoloji alanında büyük başarılar yaratmanın ve herkesin hayatını iyileştirmenin temelidir.
Vermek istediğim tavsiye, her şeyden önce oğlunuzun matematiğe olan tutkusunu sürdürmenizdir, ki bu çok önemlidir. Bu tutkuyu kaybettiğinizde, öğrenmeye devam etmek zorlaşır.
Ayrıca neyi sevdiğini gözlemlemeye, öğrenme sürecini ilginç hale getirmeye ve ilgisini daha da artırmaya dikkat edin. Aynı zamanda, işlerin nasıl yürüdüğü ilkesine olan merakını geliştirmek ve çalışma merakı tarafından yönlendirilen bilimsel bir düşünce geliştirmeye çalışmak da gereklidir. Bir şeyleri söküp nasıl çalıştıklarını anlamaya çalışmak gibi.
Kişi evrenin matematiksel gerçeklerini keşfetme hevesini kaybederse, ivme kazanması zor olabilir. Genel olarak, oğlunuzun dünyaya, özellikle de matematik ve bilimin doğasına olan derin ilgisini ve merakını geliştirmenizi tavsiye ederim.
S: Daha soyut bir sorum var. Derinliğin sonsuzluğa yaklaştığı fikrine sahiptiniz ve sonra bu fikri temel alarak bu makaleyi yazdınız. Farklı mimarilere sahip sinir ağlarını düşündünüz mü? Nöronlar ve sayısız katman içeren standart bir mimari değil, tamamen farklı bir şey. Örneğin, bu nöronlar tamamen farklı şekillerde bağlanır, belki bir tür kare?
Genç: Aslında, doğrusal olmama ve çalışmamızdaki katman sayısı ile ilgili içgörüler çok ilkel çalışmalardır. Uygun yapının ne olduğu veya ne tür bir yapı olması gerektiği konusunda kesinlikle araştırılabilecek birçok soru var.
Örneğin, Meta ekibi daha önce rastgele bağlı nöronlara ne olduğunu inceledi ve bazı ilginç sonuçlar elde etti. Yani, burada kesinlikle yapılacak daha çok şey var. Şimdi neyin doğru ya da daha iyi yapılandırılmış olacağını söylemek için gerçekten somut bir cevabım yok.
Jange Hakkında
Hunan Eyaletinde doğan Yang Ge, ilkokuldan mezun olduktan sonra Amerika Birleşik Devletleri'ne gitti ve burada Harvard'da Profesör Chengtong Yau'nun yanında okudu.
Yange, 2017 yılında Harvard'dan mezun oldu ve ardından Shen Xiangyang'ın tavsiyesi üzerine Microsoft'a girdi.
Microsoft'ta Yang Ge, Shen Xiangyang tarafından büyük övgü aldı. Birkaç ay önce, "Temel Bilim ve Yapay Zeka" adlı bir forumda, Shen Xiangyang halka açık bir şekilde şunları söyledi:
GPT-4'ün μTransfer (Tensör Programları serisi) yöntemini kullandığını kendisinin de kabul ettiğini belirtmekte fayda var.
Younger'ın Tensör Programları üzerine araştırması çok erken yaşlardan beri var ve "Tensör Programları I" 2019'da yayınlandı ve Microsoft'ta çalışırken derinlemesine araştırmaya devam etti. Derin öğrenmedeki hemen hemen her hesaplamanın Tensör Programları olarak temsil edilebileceğine inanıyor.
Bu yılın Temmuz ayında Musk, xAI adlı yeni bir şirketin kurulduğunu duyurdu ve Young, xAI kurucu ekibine katılmak ve xAI'nin matematikçisi olmak için Microsoft'tan ayrıldı.
xAI'ye katıldıktan sonra Young, Tensor Programları projesinin uzun vadeli hedefinin, büyük ölçekli derin öğrenmenin "her şeyin teorisini" geliştirmek, yani AI büyük modellerinin davranışını gerçekten anlayabilecek teorik bir kural bulmak olduğunu defalarca açıkladı.
Ayrıca şunları söyledi:
Kağıt Bağlantısı: