Lan Zhenzhong, West Lake Üniversitesi Profesörü: Büyük modeller hakkında çeşitli bilgiler

2023-09-19 07:47:02

19 Eylül 2023'te Şanghay'da "2023 Şangay Blockchain Uluslararası Haftası Dokuzuncu Blockchain Küresel Zirvesi" açıldı. West Lake Xinchen'in kurucusu ve West Lake Üniversitesi profesörü Lan Zhenzhong, "Büyük Modeller Hakkında Çeşitli Bilişler" başlıklı canlı bir ders verdi.

Daha fazla bilgi için lütfen tıklayın: "2023 Şangay Blockchain Uluslararası Haftası"nın öne çıkanları (sürekli güncellenmektedir)"

Golden Finance, tüm toplantının yerinde takibini ve raporlamasını gerçekleştirdi. Konuşma içeriğinin özeti aşağıdadır.

herkese günaydın!

Bugün ağırlıklı olarak büyük modellerden ve yapay zekadan bahsedeceğim, daha sonra Web3 ile bazı entegrasyonlardan ve yapılan çalışmalardan bahsedeceğim.

2007 yılında yapay zeka üzerine çalışmaya başladım ve o zamandan bu yana on yıldan fazla zaman geçti.CPU döneminden GPU dönemine, küçük modellerden büyük modellere kadar bu işi uzun zamandır yapıyorum, ayrıca yapıyorum. nispeten temsili bir içerik hazırladık. 2019'da Google'dayken yaptığım büyük model dünyadaki en iyi büyük modeldi, GPT2'den çok daha iyiydi, bu yüzden o zamanlar GPT serisini küçümsemiştik ama şimdi çok iyi durumdalar.

2020 yılında Çin'e döndüğümde ilk Çin büyük model değerlendirmesini yaptım, büyük modellerin derinlemesine katılımcısı sayılabilirim, artık büyük modellerle ilgili araştırmalar yapan bir laboratuvar ve şirket var.

Geçmişte büyük modellerin gelişim geçmişine nadiren bakardım ve onlar hakkında nadiren derinlemesine düşünürdüm. ChatGPT popüler hale gelinceye kadar insanlar bana çeşitli sorular sormaya geldiler, şu soruları özetleyeyim:

Öncelikle modelin daha büyük mü yoksa daha küçük mü olmasını istiyorsunuz?

İkincisi, artık genel büyük modeller hakkında çok fazla konuşuluyor, peki genel büyük modellerin fırsatları var mı, yoksa endüstrinin büyük modellerinin fırsatları var mı?

Üçüncüsü, NVIDIA'ya mı yoksa büyük model şirketlerine ve uygulama şirketlerine mi yatırım yapmalıyım?

Dördüncüsü, genel kamuoyu için büyük modeller çalışmamı nasıl değiştirebilir? Nasıl kariyer seçmeliyim?

Bu sorular geçmiş tarihi gözden geçirmemize olanak sağlıyor.Genellikle bazı geçmiş verileri referans olarak sunuyorum.

Öncelikle ilk soru şu: Büyük modeller gittikçe büyüyecek mi? Tarihe baktığımızda, bilgisayarların ilk gelişmeye başladığı 1950 yılında aslında modeller giderek büyümektedir. Modelin büyümesinin temelde modelin akıllı hale gelmesindeki ilk faktör olduğu, dolayısıyla modelin gittikçe büyüyeceği söylenebilir.

2018 yılına kadar modelin hızlı bir şekilde genişlemesini sağlayabilecek bir yöntem keşfettik. Şimdi çok hızlı genişliyor. 2018'den 2021'in başına kadar temelde her 18 ayda bir yüzlerce kat arttı. Şimdi hızı yavaşladı ama öyle Ayrıca hızlı genişleme.

(Şekilde gösterildiği gibi) Bu resim GPT4'ün bir resmidir. Dikey eksen zeka seviyesini ifade eder. Zeka seviyesi ne kadar yüksek olursa seviye de o kadar yüksek olur. Yatay eksen model boyutunu ve eğitim miktarını gösterir. . Model büyüdükçe ve daha eğitimli hale geldikçe zeka düzeyi de giderek yükselir. Yeşil nokta GPT4, o noktada hala eğim var ve hala aşağıya inecek. Yani modeli büyüttüğünüzde yine de daha akıllı hale gelmesi beklenebilir. İnsanoğlu her zaman sınırın peşindedir ve biz onu mutlaka güçlendireceğiz.

Ancak şu anda herkesin endişelendiği şey, GPT4'ün zaten trilyon düzeyinde bir model olması. Çıkarım maliyetleri çok pahalı ve eğitim de çok pahalı. Amplifikasyon faydalı mı?

Başka bir veriye baktığımızda bu endişenin gerekli olmadığını biliyoruz çünkü eğitim ve çıkarım maliyeti keskin bir şekilde düşüyor. GPT3 2020'de eğitildiğinde tek bir eğitim oturumunun maliyeti 4 milyon ABD dolarıydı. 2022'de 400.000 ABD dolarına düşürüldü ve maliyet düşüşü çok hızlı.

Esas olarak çeşitli yönlerden:

Birincisi, GPU performansı keskin bir şekilde arttı ve maliyetler Moore Yasasını çok aşacak şekilde düştü. Moore Yasasına göre 2016'dan 2022'ye kadar CPU performansı 8 kat, GPU performansı ise 26 kat arttı.Gelişme çok açık.

İkincisi yazılımın iyileştirilmesi.Yazılımın getirdiği eğitim verimliliğinin artmasıyla yıllık eğitim maliyeti yaklaşık %47 oranında düşüyor.İkisinin birleşimi çok korkunç bir düşüş, biri donanım diğeri yazılım.

Üçüncüsü, bilgi işlem gücünü büyük ölçekte yayıyoruz. ChatGPT ortaya çıkmadan önce, küresel bilgi işlem gücü her yıl yaklaşık %20-%40 oranında artıyordu. ChatGPT çıktıktan sonra bilgi işlem gücü artışı iki katına çıkabilir. Bilgi işlem gücünüz büyük ölçüde arttığında ve GPU'lar seri üretildiğinde işletme maliyetleri de azalır. Birlikte ele alındığında, eğitim ve çıkarım maliyeti keskin bir şekilde düşüyor, yani iki yılda 10 kat düştüğünü görebiliyoruz.

Önümüzdeki birkaç yıl içerisinde GPT4 gibi trilyon düzeyindeki modeller nispeten ucuzlayacak ve herkes bunları kullanabilecek.

Özetlemek gerekirse, modellerin büyüyüp güçlenmeye devam edeceğini, eğitim ve çıkarım maliyetlerinin düşmeye devam edeceğini ve yinelemelerin hızlı olacağını tahmin ediyorum.

(Resimde görüldüğü gibi) Bu resim GPT1 ile ilgili. O zamanlar GPT1'e pek olumlu bakmamıştım. Şimdi geriye dönüp baktığımda büyük bir hata yaptım. GPT1 çok büyük katkı sağladı ve yapay zekayı uzmanlaşmış yapay zekadan dönüştürdü. Genel yapay zekaya dönüşüm.

Eskiden yüzlerce doğal dil işleme görevi vardı ve her görev için çeşitli modeller tasarlanıyordu, dolayısıyla çok fazla makale vardı. Ama GPT1 çıktıktan sonra size çeşitli modelleri kullanmamanızı söylemiştim, çoğu işimi halletmek için tek bir model kullandım.

İkinci makale, o zamanki Google'daki meslektaşım tarafından çeşitli görevleri aynı modelde birleştiren bir yazıydı. Dolayısıyla bu dalganın asıl katkısı evrenselliktir. Evrensellik sadece metne değil aynı zamanda resimlere, seslere ve seslere de yansır. proteinler, diziler gibi çeşitli veriler için, verileri diziye dönüştürebildiğiniz sürece temel olarak işlenebilmektedir.

Resmi birçok parçaya bölüp uzatmak artık Transformer modelinin yapabileceği bir iştir.Temelde çok çeşitli görevleri kapsayabilir ve çok yönlüdür.

Her ne kadar büyük modeller artık pek çok karmaşık görevi halledemese de, ona biraz yardım ettiğiniz ve görevleri biraz parçalara ayırdığınız sürece bunu yapabilirsiniz. Herkes GPT4'ün çok güçlü olduğunu düşünse de, doğrudan 24 puan almanın doğruluğu %7,3'tür, ancak biraz parçalara ayırırsanız bu oran %74'e çıkarılabilir. şimdi GPT serisi modeller veya genel büyük modeller birçok görevi çözmenize ve otomasyona ulaşmanıza yardımcı olabilir.

Birincisi modelin daha büyük hale gelmesi, diğeri ise çok yönlü olması ve pek çok karmaşık karakteri biraz sökerek çözebilmesi, dolayısıyla oldukça pratik olmasıdır. Yurt dışında başarıyla uygulanan pek çok uygulama var, örneğin Pittsburgh'da bir şirket olan Duolingo'nun geliri, ChatGPT uygulamasının eklenmesiyle 2023 yılının ilk çeyreğinde %42 oranında arttı.

Birçok programcı artık Copilot kullanıyor.OpenAI'nin bu yılki gelirinin 1,2 milyar ABD dolarına ulaşacağı tahmin ediliyor ki bu, yeni kurulmuş bir şirket için çok zor bir gelir ölçeği.

Bu yapay zeka dalgasının öncekilerden farkı, zihinsel işçilerin yerini almasıdır. Sağdaki resim, bu genel yapay zeka dalgasından önce çeşitli endüstrilerdeki zeka (otomasyon) seviyesini göstermektedir. Altta derecesi olmayanlar yer almaktadır. Yüksek Lisans'tan Doktora'ya kadar olanların ardından, yukarıya doğru gidildikçe ikame edilebilirlik derecesi giderek azalır. Artık işler farklı, genel yapay zekanın ortaya çıkmasıyla birlikte zihinsel çalışanların yeri kolaylıkla doldurulabiliyor.

Özetlemek gerekirse, büyük modellerin uygulanması hayal ettiğimizden daha hızlı ve elbette birçok finans çalışanının hayal ettiğinden daha yavaş olacaktır, çünkü borsanın tepkisi her zaman teknolojiden daha hızlıdır, en azından hayal ettiğimizden daha hızlıdır ve bizi güçlendirebilir. Yaşamın her kesiminden. Her görevi parçalara ayırmanız zordur, eğer büyük bir model şirket sektörün derinliklerine girerse, büyük fırsatlar ortaya çıkacaktır.

Günümüzde çoğu insan modelin zekasına dikkat ederken, modelin "duygusal zekasına" ve insanlarla etkileşim derecesine daha az dikkat ediliyor.Mesela sevgilimin soracağı bir soru sordum ve ChatGPT bana bu cevabı verdi. Bu cevabın bir yöntemi var ama yok Modelle etkileşimimizin soğuk olduğunu ve kullanıcıların ilgisiz olduğunu gösteren duygular var gibi görünüyor. Bu, sektörün erken gelişiminin bir yansımasıdır.

Arama motorlarını karşılaştırabilirsiniz. İlk piyasaya sürüldüklerinde kişiselleştirme nadirdi. Ancak şimdi Baidu ve Google'ı herkes farklı kullanıyor çünkü aramaları daha doğru hale getirmek için birçok bilgi kişiselleştirilecek, ancak çoğu Model bunu henüz yapamıyor.

Google'dan meslektaşım tarafından kurulan Character.ai adlı şirket gibi bazı kişiler de bunu yapmaya başladı. Modele kişiselleştirmeyi ekledi, bu da model ile insanlar arasındaki etkileşim süresini önemli ölçüde artırabiliyor. Mayıs ayı verileri: OpenAI'nin ortalama etkileşim süresi 4 dakikadır ve bu şirketin ortalama etkileşim süresi 28 dakikadır, bu da etkileşim süresinin birkaç katıdır. Sayfa şu şekilde görünür; bu, daha duygusal olan ve insanların onunla etkileşime girmeye istekli olduğu kişiselleştirilmiş bir yöne ulaşmak için büyük modeli çeşitli Başkentlere ve Aracılara (ajanlara) bölmeye eşdeğerdir. Artık büyük modellerin geliştirilmesiyle insan-bilgisayar etkileşiminde büyük bir atılım yaşanacak.

Şirketimiz ve laboratuvarımız ağırlıklı olarak yüksek IQ ve yüksek EQ'ya sahip genel büyük modelleri, özellikle de çok modlu büyük modelleri araştırmaktadır. Geçmişte modellerin duygusal zekasını geliştirmek amacıyla hafızayı, kişiselleştirmeyi ve duygusal algıyı geliştirecek bir dizi yetenek geliştirildi.

Model nispeten erken piyasaya sürüldü, çünkü uzun süredir Google'da genel olarak büyük bir model üzerinde çalışıyordum. ChatGPT 2020 ortalarında çıkmadan önce kendi genel büyük modelimiz vardı. O zamanlar yazma yeteneği model 3,5 ile aynı seviyedeydi ve önemli bir meslekti.

Bir yıldan fazla bir süredir çevrimiçidir ve 200'den fazla C tarafı kullanıcısı ve aralarında Starbucks ve Alipay'in de bulunduğu 100'den fazla B tarafı kullanıcısı vardır.

En tipik uygulamalardan biri de Tom Cat ile yapılan iş birliğidir.Tom Cat dünya çapında aylık 400 milyon aktif kullanıcıya sahip bir yardımcı üründür.Geçmişte ağırlıklı olarak insanların konuşmalarını kopyalıyor ve ses değişimi yoluyla kelimeleri kopyalıyordu. Buna çok modlu etkileşim yeteneklerini ve diyalog yeteneklerini ekliyoruz.

Konferansla ilgili Web3'e dönelim. Benim kabaca anladığım bu. Büyük model ve Web3'ün sırasıyla üretkenlik ve üretim ilişkilerine karşılık geldiğini düşünüyorum. Büyük model üretkenlik düzeyini büyük ölçüde artırır, ancak iyi performans göstermek istiyorsa, bunu yapması gerekir. karşılık gelen üretim ilişkisine sahip olmak. Büyük modellerin uygulanmasında çeşitli sorunların olduğunu özetledim:

Birincisi eğitimin maliyeti çok yüksek, start-up şirketlerin modellerini açık kaynak yapmasına yönelik bir teşvik yok, eğitimi milyonlarca dolara mal olan modeller açık kaynaklı ama o zaman benimle hiçbir ilgisi yok, zor. kaynak açmaları için. Ancak modeller için açık kaynak çok önemlidir. Mevcut modellerin çoğu kara kutulardır. Birçok araştırma kurumu kendi modellerini eğitmeye gücü yetmez. Herkes eğitim alıyorsa herkes tekerleği yeniden icat ediyor demektir. Bu nedenle açık kaynak çok önemlidir, ancak buna karşılık gelen önlemlere, teşviklere ihtiyacı var.

İkincisi, akıl yürütmenin maliyeti yüksek. GPT4'te tek bir konuşmanın şu anki akıl yürütme maliyeti 60 sent, bu benim konuşmamdan çok daha pahalı. Akıl yürütmenin maliyeti çok yüksek ve uygulanması çok zor. GPT4 birçok yerde kullanılabilir ancak maliyeti karşılanamaz.

Üçüncüsü veri hassasiyeti.Samsung'un verileri daha önce OpenAI tarafından sızdırılmıştı ve çok fazla kargaşaya neden olmuştu.Büyük modele yüklediğimiz veriler artık hassas veriler.Birçok şirket kendi verilerini yüklemek istemiyor.Bu sorunlarla nasıl başa çıkılır? Umarım Web3 bu sorunları çözmemize yardımcı olabilir.

Az önce Öğretmen Cao'nun hala birçok zorluk olduğunu söylediğini duydum, ancak araştırma yoluyla bu sorunların çözülmesine yardımcı olabileceğimizi umuyoruz. Örneğin, halka açık bir zincirimiz var ve herkes açık kaynaklı modeller yükleyebilir. Modeli açık kaynak olarak kullansanız bile ve bunu halka açık zincire yüklediğimizde buna karşılık gelen bir teşvik mekanizması olacak, örneğin kullanıcılar veri yüklerse, eğitim vermemize izin verilirse buna karşılık gelen teşvikler olacaktır.

Bilgi işlem sorunları da var.Artık herkesin cep telefonunda çok güçlü bir grafik kartı var.Herkesin cep telefonu çıkarımlara katkıda bulunabilirse o zaman çıkarım maliyetini çok azaltabiliriz. İdeallerimizin Web3'ün gücüyle gerçek anlamda gerçekleştirilebileceğini umuyoruz. Büyük modellerin yaşamın her kesimine güç verebileceğini, herkese eşlik edebileceğini ve gerçekten herkesin asistanı veya yol arkadaşı olabileceğini umuyoruz.

hepinize teşekkür ederim!

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Simple Earn Annual Rate 24.4%
22k Popularity
2Gate Launchpad List IKA
30k Popularity
3ETH Trading Volume Surges
23k Popularity
4Gate ETH 10th Anniversary Celebration
21k Popularity
5Trump’s AI Strategy
18k Popularity

sitemap