OpenAI, Google ve Meta düşüncesindeki popüler Çinli araştırmacılar neler | Konuşmanın metni

Orijinal kaynak: Silicon Star People

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Koltuklar doluydu ve koridorlar insanlarla doluydu.

Hatta bunun bir ünlü buluşması olduğunu bile düşünebilirsiniz.

Ancak bu aslında Silikon Vadisi'ndeki GenAI konferansındaki yuvarlak masa toplantılarından biri.

İnsanların en uykulu olduğu öğle saatlerinde "yardımcı sahne"de düzenlendi.Başka bir büyük konferans salonunda sahnede çok sayıda CEO ve Silikon Vadisi yıldız şirketlerinin kurucuları oturuyordu ve bu yuvarlak masa "sadece" bazı araştırmacılar içindi. , ama insanlar hâlâ küçük odaya akın etmeye devam ediyordu.

Hedefleri üç Çinli araştırmacıydı. Geçmişte Silikon Vadisi'nde "Silikon Vadisi şirketlerinde en üst mevkilere sahip Çinli yöneticiler" ortaya çıktığında bu tür manzaralar olurdu ama bu kez insanlar üç gencin peşindeydi.

Xinyun Chen, Chunting Zhou ve Jason Wei.

**Silikon Vadisi'ndeki en önemli yıldız yapay zeka şirketlerinden üçünde çalışan genç Çinli araştırmacılar. **

Bu üç isim, büyük model trendini yakından takip eden kişilere mutlaka tanıdık gelecektir.

Xinyun Chen, Google Brain ve DeepMind çıkarım ekiplerinde kıdemli bir araştırma bilimcisidir. Araştırma alanları sinirsel program sentezi ve çekişmeli makine öğrenmesidir. Berkeley'deki Kaliforniya Üniversitesi'nden bilgisayar bilimleri alanında doktora derecesini ve Shanghai Jiao Tong Üniversitesi'nin ACM sınıfından bilgisayar bilimleri alanında lisans derecesini aldı.

Yüksek Lisans'ın kendi araçlarını oluşturmasına izin vermek ve Yüksek Lisans'a kendi kodunda hata ayıklamayı öğretmek gibi makalelere katıldı. Bunların hepsi AI kod oluşturma alanında çok önemli ve kritik makalelerdir. Ayrıca bazı medya kuruluşları tarafından abartılı bir şekilde "Google Deepmind Çin Ekibi"nin bir üyesi olarak tanımlandı.

Chunting Zhou, Meta AI'da araştırma bilimcisidir. Mayıs 2022'de Carnegie Mellon Üniversitesi Dil Teknolojisi Enstitüsü'nden doktora derecesini aldı. Şu andaki ana araştırma alanları, doğal dil işleme ve makine öğreniminin yanı sıra yeni hizalama yöntemlerinin kesişiminde yatmaktadır. Büyük modelleri eğitmek için daha az sayıda ve daha rafine numuneler kullanmaya çalışan, liderliğini yaptığı makale, Yann Lecun tarafından büyük övgüler aldı ve bir makalede tavsiye edildi. Makale, sektöre RLHF gibi ana akım yöntemlerin yanı sıra daha yeni fikirler sağladı.

Sonuncusu, yerli ve yabancı AI toplulukları tarafından oldukça saygı duyulan yıldız araştırmacı OpenAI'den Jason Wei. Ünlü COT (Düşünce Zinciri) geliştiricisi. 2020 yılında lisans eğitiminden mezun olduktan sonra Google Brain'de kıdemli araştırmacı oldu ve görev yaptığı süre boyunca aynı zamanda Yüksek Lisans'ın ortaya çıkışının anahtarlarından biri olan düşünce zincirleri kavramını önerdi. Şubat 2023'te OpenAI'ye katıldı ve ChatGPT ekibine katıldı.

İnsanlar bu şirketlere geliyorlar ama daha çok araştırmalarına geliyorlar.

Çoğu zaman bu forumda öğrenci gibidirler, sanki bir üniversite tartışmasını izliyormuşsunuz gibi, akıllı zekalı, hızlı tepki veren mantık sahibi, biraz gergin ama aynı zamanda esprili sözlerle dolular.

"Halüsinasyonların neden kötü bir şey olduğunu düşünüyorsunuz?"

"Ama Trump her gün halüsinasyon görüyor."

Kahkahalar vardı.

Bu nadir görülen bir sohbettir, transkripti aşağıdadır, Silicon Star çalışanları da katıldı ve sorular sordular.

Soru: Yüksek Lisans'ta çok önemli bir konuyu, halüsinasyonu tartışalım. Halüsinasyon kavramı, model parametrelerinin çok az olduğu ve boyutun hala çok küçük olduğu zamanlarda önerildi, ancak şimdi modeller büyüdükçe ve büyüdükçe halüsinasyon sorunu nasıl değişti?

Chunting: Önce ben konuşabilirim. Üç yıl önce halüsinasyonlarla ilgili bir proje yapmıştım. O dönemde karşılaştığımız halüsinasyon problemi şu an karşılaştığımızdan çok farklıydı.O zamanlar çok küçük modeller yapıyorduk ve halüsinasyonları çeviri veya belge özeti gibi belirli alanlarda ve diğer işlevlerde tartışıyorduk. Ancak artık sorunun çok daha büyük olduğu açık.

Büyük modellerin hala halüsinasyon üretmesinin birçok nedeni olduğunu düşünüyorum. Öncelikle eğitim verileri açısından, insanlar halüsinasyonlar gördüğü için verilerde de sorunlar var. İkinci sebep ise modelin eğitilme şekli nedeniyle gerçek zamanlı sorulara cevap verememesi, yanlış sorulara cevap vermesidir. Akıl yürütme ve diğer yeteneklerdeki eksikliklerin yanı sıra bu soruna yol açabilir.

Xinyun:** Aslında bu cevaba başka bir soruyla başlayacağım. İnsanlar neden halüsinasyonların kötü bir şey olduğunu düşünüyor? **

Meslektaşımın modele bir soru sorduğu ve yine bazı değerlendirme soru bankalarından alınan bir hikayem var: Prenses kurbağayı öptüğünde ne olacak? Modelin cevabı hiçbir şeyin olmadığıdır. **

Birçok model değerlendirme yanıtında “prens olacak” yanıtı doğru yanıt olup, hiçbir şey olmayacak yanıtı yanlış olarak işaretlenecektir. **Ama benim için aslında bunun daha iyi bir cevap olduğunu düşünüyorum ve pek çok ilginç insan buna cevap verecektir. **

İnsanların bunun bir yanılsama olduğunu düşünmelerinin nedeni, yapay zekanın ne zaman halüsinasyon görmemesi gerektiğini, ne zaman halüsinasyon görmesi gerektiğini düşünmemiş olmalarıdır.

Mesela bazı yaratıcı çalışmalar bunu gerektirebilir ve hayal gücü çok önemlidir. Şimdi modeli sürekli büyütüyoruz, ancak buradaki sorun şu ki, ne kadar büyük olursa olsun her şeyi doğru bir şekilde hatırlayamıyor. Aslında insanlar da aynı sorunu yaşıyor. Yapılabilecek şeylerden birinin, modele yardımcı olacak arama, hesaplama, programlama araçları vb. gibi bazı gelişmiş araçlar sağlamak olduğunu düşünüyorum. İnsanlar bu araçların yardımıyla halüsinasyon sorununu hızla çözebiliyor ancak modeller henüz pek iyi görünmüyor. Bu aynı zamanda benim de üzerinde çalışmak istediğim bir soru.

Jason: **Bana sorarsan Trump her gün halüsinasyon görüyor. (Gülüyor) Evet ya da hayır diyorsunuz. **

Ancak bence buradaki bir diğer sorun da insanların dil modellerinden beklentilerinin değişmesi. **2016'da bir RNN bir URL oluşturduğunda beklentiniz bunun yanlış ve güvenilmez olması yönündedir. Ama bugün sanırım modelin pek çok konuda doğru olmasını beklersiniz, dolayısıyla halüsinasyonların daha tehlikeli olduğunu da düşünürsünüz. Yani bu aslında çok önemli bir arka plan. **

(Jason Wei tarafından listelenen potansiyel araştırma yönleri)

Sor: Bir sonraki soru Xinyun için. Örneğin, modelin kendini geliştirmesi ve kendi kendine hata ayıklaması artık sektörde çok önemli bir konu. Araştırmanızı paylaşabilir misiniz?

Xinyun: Modelin kendi kendine hata ayıklamasının ilham kaynağı aslında insanların programlanmasından geliyor. İnsan programlaması bir kez biterse mutlaka sorunlar çıkacağını ve hata ayıklamanın gerekli olacağını biliyoruz. Çok güçlü programcılar için hata ayıklama da çok önemli bir beceridir. Amacımız, herhangi bir dış talimat olmadan ve insanların ona neyin yanlış olduğunu söylemesi olmadan, modelin kendi ürettiği koda bakabilmesi, işlemin sonuçlarını görebilmesi ve ardından neyin yanlış gittiğini belirleyebilmesidir. Bir sorun varsa gidip hata ayıklayın.

Ve kendi kendine hata ayıklamanın kod oluşturmaya neden yardımcı olacağını düşünüyorum, bunun iki nedeni var. Öncelikle kod üretimi temelde açık kaynak kod eğitimine dayalıdır, istediğiniz genel yöne uygun kod üretebilir ancak kod çok uzun olabilir, çok fazla hata içerebilir ve çalıştırılamaz. Ancak mevcut kod tabanını kullanmak yerine programlamaya sıfırdan başlamamıza gerek yok, çünkü ne kadar sıfırdan başlarsanız başlayın, sorun kaçınılmazdır, bu nedenle mevcut kod kaynakları üzerinde kod oluşturma ve hata ayıklama yapmak gerekir. önemli hale gelmiştir. **İkincisi, hata ayıklama süreci bazı dış geri bildirimler almaya devam ediyor ve bu da modelin anlaşılmasını geliştirmek için çok yararlı.

S: Bir sonraki soru şu; eğer modeli kendi haline bırakırsanız ve kendi kendini geliştirmesine izin verirseniz herhangi bir sorun yaşanmayacak mı?

Chunting: Bir zamanlar garip bir deney yapmıştık. Sonuç olarak, aracı kodu çalıştırdıktan sonra python geliştirme ortamını sildi. Bu aracı gerçek dünyaya girerse kötü bir etkisi olabilir. Bu, ajanları geliştirirken dikkate almamız gereken bir şeydir. Ayrıca temel model ne kadar küçük olursa yeteneğin de o kadar küçük olduğunu ve kendini geliştirmenin ve üzerinde düşünmenin zor olduğunu buldum. Belki modele, hizalama sürecinde daha fazla "hata" görmesine izin vererek kendini geliştirmeyi öğretebiliriz.

S: Peki ya Jason, modelleri nasıl değerlendiriyorsunuz ve modelleri değerlendirme konusunda ne düşünüyorsunuz?

Jason: Benim kişisel görüşüm, özellikle yeni paradigma altında modelleri değerlendirmenin giderek zorlaştığı yönünde. Bunun birçok nedeni var: Birincisi, dil modellerinin artık sayısız görevde kullanılması ve yeteneklerinin kapsamını bile bilmiyor olmanız. İkinci sebep ise yapay zekanın tarihine baktığınızda esas olarak geleneksel ve klasik problemleri çözüyoruz, hedefler çok kısa vadeli ve metinler çok kısa. Ancak artık çözüm metni daha uzun ve insanların bile karar vermesi uzun zaman alıyor. Belki de üçüncü zorluk, birçok şey için sözde doğru davranışın çok açık bir şekilde tanımlanmamış olmasıdır. **

Değerlendirme yeteneklerini geliştirmek için yapabileceğimiz bazı şeyler olduğunu düşünüyorum. Bunlardan ilki ve en belirgin olanı, daha geniş bir kapsamda değerlendirme yapmaktır.Bazı zararlı davranışlarla karşılaşıldığında, değerlendirme için daha spesifik olarak daha küçük görevlere bölünüp bölünemeyeceği. Diğer bir soru ise belirli görevler için daha fazla değerlendirme yöntemi verilip verilemeyeceğidir.Belki insanlar biraz verebilir, sonra yapay zeka da biraz verebilir.

S: Yapay zekanın rotasını değerlendirmek için yapay zekayı kullanma hakkında ne düşünüyorsunuz?

Jason: Kulağa harika geliyor. Sanırım son zamanlarda baktığım trendlerden biri de modelleri değerlendirmek için kullanılan modellerin daha iyi performans gösterip gösteremeyeceği. Örneğin, yapısal yapay zeka eğitimi fikri, şu anda performansı mükemmel olmasa da, yeni nesil GPT'den sonra bu modellerin insanlardan daha iyi performans göstermesi çok muhtemel.

**Silikon Yıldızı: Hepiniz çok genç araştırmacılarsınız. Kuruluştaki araştırmacılar olarak sizlerin, kuruluşlarla akademi arasındaki GPU ve bilgi işlem gücü arasındaki ciddi uyumsuzluk hakkında ne düşündüğünüzü bilmek isterim. **

Jason: Kısıtlı bir ortamda çalışıyorsanız, bunun gerçekten olumsuz bir etkisi olabilir, ancak bence algoritma kısmı, GPU'lar için çok gerekli olmayabilecek araştırmalar gibi birçok çalışmaya hâlâ yer var. Hiçbir zaman konu sıkıntısı yaşanmaz.

Chunting: Ayrıca keşfedilmeye değer çok fazla alan ve yer olduğunu da hissediyorum. Örneğin, hizalama yöntemlerine ilişkin araştırmalar aslında sınırlı kaynaklarla yürütülebilir**. Ve belki Körfez Bölgesi'nde akademideki insanlar için daha fazla fırsat vardır.

Xinyun: Genel olarak Yüksek Lisans araştırmasının iki genel yönü vardır; biri sonuç performansını iyileştirmek, diğeri ise modeli anlamaktır. Pek çok iyi çerçevenin, kıyaslamanın vb. yanı sıra bazı iyi algoritmaların da akademik çevreden geldiğini görüyoruz.

Örneğin, doktoramdan mezun olduğumda danışmanım bana bir öneride bulundu: **Yapay zeka araştırmacıları araştırmaları gelecekteki uzun yıllara ait zaman boyutunda düşünmeli, yani sadece mevcut bazı şeylerde iyileştirmeleri düşünmemeli ancak gelecekte köklü değişiklikleri beraberinde getirebilecek teknolojik bir kavram. **

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)