Yarım yıldan fazla bir süre geçti ve ChatGPT'nin sıralaması neredeyse en altta.

2023-09-08 06:02:49

Kaynak: TMTpost Medya

Yazar: Sanyan Teknoloji

Dün tesadüfen bir fotoğrafa rastladım.

Resme göre OpenAI'nin GPT-4'ü 11 büyük model arasında sonuncu sırada yer aldı (ilki 0 numaradır). Bazı netizenler "GPT4: Şikayetlerim hakkında nasıl şikayette bulunabilirim?" ifadesini ekledi.

Bu da insanı meraklandırıyor.Bu yılın başında ChatGPT'nin popüler hale gelmesinin ardından diğer firmalar da büyük model konseptinden bahsetmeye başladı.

Yalnızca altı aydan fazla zaman geçti ve GPT şimdiden "dibe vurmuş" mu?

Bu nedenle yazar GPT sıralamasının nasıl olduğunu görmek istedi.

Test süresi farklı, test ekibi farklı, GPT-4 on birinci sırada

Önceki yazıdaki resimde gösterilen bilgilere bakılırsa bu sıralama C listesindendir.

C-Global Büyük Model Kapsamlı Sınav Test Listesinin tam adı olan C-List, Tsinghua Üniversitesi, Shanghai Jiao Tong Üniversitesi ve Edinburgh Üniversitesi tarafından ortaklaşa oluşturulan bir Çince dil modeli kapsamlı sınav değerlendirme paketidir.

Paketin beşeri bilimler, sosyal bilimler, fen bilimleri ve mühendisliğin dört ana yönünü ve 52 disiplin dahil olmak üzere diğer ana dalları kapsadığı ve matematik ve doğrusal cebir gibi birçok bilgi alanını kapsadığı bildiriliyor. Ortaokul, lisans, yüksek lisans ve mesleki olmak üzere dört test seviyesine ayrılmış zorluk derecesine sahip toplam 13.948 Çince bilgi ve muhakeme sorusu bulunmaktadır.

Böylece yazar en son C listesini kontrol etti.

C listesinin son sıralaması önceki resimde gösterilen sıralamayla tutarlıdır.En iyi 11 büyük model arasında GPT-4 son sırada yer almaktadır.

C listesine göre, bu sonuçlar sıfır atış (sıfır atış öğrenme) veya birkaç atış (birkaç atış öğrenme) testlerini temsil eder, ancak birkaç atış mutlaka sıfır atıştan daha iyi değildir.

C-, testlerinde talimat ince ayarından sonra birçok modelin sıfır atışta daha iyi olduğunun tespit edildiğini söyledi. Test edilen modellerin çoğunda hem sıfır atış hem de az atış sonuçları var ve sıralama, daha iyi genel ortalama puana sahip ayarı gösteriyor.

C listesi ayrıca "*" işaretli büyük model adlarının, model sonuçlarının C ekibi tarafından test edildiğini, diğer sonuçların ise kullanıcı gönderimleri yoluyla elde edildiğini gösterdiğini belirtir.

Ayrıca yazar, bu büyük modeller için test sonuçlarının gönderilme süresinin de büyük ölçüde değiştiğini fark etti.

GPT-4 için test sonucu gönderim tarihi 15 Mayıs'ta, birinci sırada yer alan Yuntianshu 31 Ağustos'ta, ikinci sırada yer alan Galaxy 23 Ağustos'ta ve üçüncü sırada yer alan YaYi ise sonuçlarını 31 Ağustos'ta sunacak. 4 Eylül için.

Üstelik ilk 16 büyük model arasında yalnızca GPT-4 ismine "*" ekledi ve C ekibi tarafından test edildi.

Böylece yazar C listesinin tamamını tekrar kontrol etti.

En son C listesi toplam 66 büyük model sıralamasını içeriyor.

Bunlardan isimlerinde "*" bulunan sadece 11 tanesi C takımı tarafından test ediliyor ve test için başvuru tarihi 15 Mayıs'tı.

C ekibi tarafından test edilen bu büyük modeller için OpenAI'nin GPT-4'ü 11., ChatGPT 36., Tsinghua Zhipu AI'nın ChatGLM-6B'si 60. ve Fudan'ın MOSS'u 6. sırada yer aldı.

Bu sıralamalar yerli büyük ölçekli modellerin hızlı gelişim ivmesini gösterse de yazar sonuçta testlerin aynı ekip tarafından aynı anda yapılmadığına, bunun da kimin daha güçlü, kimin daha zayıf olduğunu tam olarak kanıtlamak için yeterli olmadığına inanıyor. bu büyük ölçekli modeller arasında.

Bu, her birinin farklı sınav süreleri olan ve farklı ödevlere cevap veren öğrencilerden oluşan bir sınıfa benzer. Karşılaştırma yapmak için her öğrencinin puanına nasıl güvenebiliriz?

Büyük model geliştiricisi ne diyor? Bazı kişiler Çince ve diğer yetenekler açısından ChatGPT'yi geride bıraktıklarını söyledi

Son zamanlarda büyük modellerin çevresi oldukça hareketli.

Ayrıca Baidu ve Byte'ın da aralarında bulunduğu sekiz şirketin büyük model ürünleri, "Üretken Yapay Zeka Hizmetlerinin Yönetimine İlişkin Geçici Tedbirler" tescilini geçti ve halka hizmet vermek üzere resmi olarak çevrimiçi olarak piyasaya sürülebilecek. Diğer firmalar da sırasıyla kendi büyük model ürünlerini piyasaya sürdüler.

Peki bu büyük modellerin geliştiricileri ürünlerini nasıl tanıtıyorlar?

7 Temmuz'da, 2023 Dünya Yapay Zeka Konferansı "Büyük Model Çağında Genel Yapay Zeka Endüstrisinin Gelişimine Yönelik Fırsatlar ve Riskler" forumunda, Fudan Üniversitesi Bilgisayar Bilimi ve Teknolojisi Fakültesi profesörü ve Yapay Zeka başkanı Qiu Xipeng, MOSS sistemi, Fudan'ın konuşmaya dayalı büyük ölçekli dil modeli MOSS'un bu yılın Şubat ayında piyasaya sürülmesinden sonra hala sürekli olarak yinelendiğini söyledi: "En son MOSS, Çince yeteneğinde ChatGPT'yi geçmeyi başardı."

Temmuz ayının sonunda NetEase Youdao büyük bir çeviri modeli başlattı.NetEase Youdao CEO'su Zhou Feng, dahili testlerde Çince-İngilizce çeviri yönünde ChatGPT'nin çeviri yeteneklerini aştığını ve Google Çeviri seviyesini aştığını kamuoyuna açıkladı. **

Ağustos ayının sonlarında, 2023 Yabuli Forum Yaz Zirvesi'nde iFLYTEK'in kurucusu ve başkanı Liu Qingfeng bir konuşmasında şunları söyledi: "**Xunfei Xunhuo'nun büyük model kodu oluşturma ve tamamlama yetenekleri ChatGPT'yi geride bıraktı ve diğer Bu yetenek yetişiyor **Mevcut kod yeteneğinin mantığı, algoritması, yöntem sistemi ve veri hazırlığı hazır olup, ihtiyaç duyulan tek şey zaman ve hesaplama gücüdür.”

SenseTime'ın son basın açıklamasına göre bu yılın ağustos ayında yeni model internlm-123b'nin eğitimi tamamlandı ve parametre sayısı 123 milyara çıktı. **Toplam 300.000 sorunun yer aldığı küresel 51 tanınmış değerlendirme setinde genel test sonuçları, gpt-3.5-turbo ve Meta Company tarafından yeni piyasaya sürülen llama2-70b gibi modelleri geride bırakarak dünyada ikinci sırada yer aldı. **

SenseTime'a göre **internlm-123, ana değerlendirmelerin 12'sinde birinci sırada yer aldı. Bunlar arasında değerlendirme setinin kapsamlı testindeki agi puanı 57,8 olup gpt-4'ü geçerek birinci sırada yer alır; **knowledge commonsenseqa'nın değerlendirme puanı 88,5 olup birinci sıradadır; beş okuduğunu anlama değerlendirmesinde internlm-123b puanları Tümü listenin başında.

Ayrıca muhakemeyle ilgili beş değerlendirmede de birinci sırada yer aldı.

Bu ayın başlarında Zuoyebang, kendi geliştirdiği Galaxy modelini resmi olarak piyasaya sürdü.

Homework Gang, Galaxy büyük modelinin iki yetkili büyük dil modeli değerlendirme kriteri olan C- ve CMMLU'nun sonuçlarına ulaştığını belirtti. Verilere göre Jobbang Galaxy'nin büyük modeli, C listesinde ortalama 73,7 puanla ilk sırada yer alırken, aynı zamanda CMMLU listesinin beş atışlı ve sıfır atışlı değerlendirmelerinde de en yüksek puanla yer alıyor. Ortalama puan sırasıyla 74,03 ve 73,85 puan Birincisi, yukarıdaki iki otoriter listenin ortalama puanında aynı anda ilk sırada yer alan ilk eğitim modeli oluyor.

Dün Baichuan Intelligent, resmi açık kaynak ince ayarlı Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat ve bunların 4bit nicemlenmiş versiyonlarını duyurdu.

Baichuan Intelligence'ın kurucusu ve CEO'su Wang Xiaochuan, Çin alanında, Soru-Cevap ortamında veya özet ortamında ince ayarlı Chat modelinin gerçek performansının, ChatGPT-3.5 gibi kapalı kaynak modellerin performansını aştığını söyledi. **

Bugün, 2023 Tencent Küresel Dijital Ekoloji Konferansı'nda Tencent, Hunyuan modelini resmi olarak yayınladı. Tencent Group başkan yardımcısı Jiang Jie, **Tencent Hunyuan Büyük Modelinin Çin yeteneğinin GPT-3.5'i aştığını söyledi. **

Bu geliştiricilerin kendilerini tanıtmalarının yanı sıra, büyük bir modeli değerlendiren medya ve ekipler de var.

Ağustos ayı başlarında, Tsinghua Üniversitesi Gazetecilik ve İletişim Fakültesi'nde profesör ve doktora danışmanı olan Shen Yang'ın ekibi, "Büyük Dil Modellerinin Kapsamlı Performans Değerlendirme Raporu"nu yayınladı. Rapor, **Baidu Wenxinyiyan'ın üç ana boyuttaki 20 göstergedeki kapsamlı puanının ülkeye liderlik ettiğini ve ChatGPT'den daha iyi olduğunu gösteriyor. Bunların arasında Çince anlamsal anlayış üst sıralarda yer alıyor ve bazı Çince yetenekler GPT-4'ten daha iyi. **

Ağustos ortasında bazı medya kuruluşları, 11 Ağustos'ta Xiaomi'nin büyük modeli MiLM-6B'nin C ve CMMLU büyük model değerlendirme listelerinde göründüğünü bildirdi. Şu an itibariyle MiLM-6B, C-total listesinde 10'uncu, aynı parametre düzeyinde 1'inci, CMMLU Çin büyük modelinde ise 1'inci sırada yer alıyor.

12 Ağustos'ta Tianjin Üniversitesi "Büyük Model Değerlendirme Raporu"nu yayınladı. Rapor, **GPT-4 ve Baidu Wenxinyiyan'ın kapsamlı performansının diğer modellerden önemli ölçüde önde olduğunu, puanlarının da çok farklı olmadığını ve aynı seviyede olduğunu gösteriyor. Wenxin Yiyan, çoğu Çin görevinde ChatGPT'yi geride bıraktı ve GPT-4 ile aradaki farkı kademeli olarak daralttı. **

Ağustos ayı sonlarında bazı medya kuruluşları Kuaishou'nun kendi geliştirdiği büyük dil modeli "KwaiYii"nin dahili testlere başladığını bildirdi. En son CMMLU Çin odaklı sıralamada, KwaiYi'nin 13B versiyonu olan KwaiYii-13B, hem beş vuruşlu hem de sıfır atışta birinci sırada yer aldı. Beşeri bilimler, Çin'e özgü konular vb. alanlarda ortalamanın üzerinde puanla güçlüdür. 61 puan.

Yukarıdakilerden görülebileceği gibi, bu büyük modeller belirli bir sıralamanın en üstünde yer aldığını veya belirli açılardan ChatGPT'yi geride bıraktığını iddia etse de, çoğu belirli alanlarda iyi performans gösteriyor.

Ayrıca bazı kapsamlı puanlar GPT-3.5 veya GPT-4'ü aşıyor ancak GPT testi Mayıs ayında durduruldu.GPT'nin son üç ayda iyileşmediğini kim garanti edebilir?

OpenAI'nin durumu

UBS Group'un Şubat ayında yayınladığı bir rapora göre, ChatGPT'nin lansmanından sadece iki ay sonra, aylık aktif kullanıcı sayısı Ocak 2023'ün sonunda 100 milyonu aşarak onu tarihteki en hızlı büyüyen tüketici uygulaması haline getirdi.

Ancak ChatGPT'nin gelişimi o kadar da sorunsuz değil.

Bu yılın temmuz ayında birçok GPT-4 kullanıcısı, önceki muhakeme yeteneğiyle karşılaştırıldığında GPT-4'ün performansının düştüğünden şikayet etti.

Bazı kullanıcılar, Twitter'da ve OpenAI çevrimiçi geliştirici forumunda, daha zayıf mantığa, daha fazla yanlış yanıta, sağlanan bilgileri takip edememe, talimatları takip etmede zorluk, temel yazılım kodunda parantez koymayı unutma, yalnızca en çok şeyi hatırlama gibi sorunlara dikkat çekti. son ipuçları vb.

Ağustos ayında başka bir rapor, OpenAi'nin potansiyel mali sıkıntı içinde olabileceğini ve 2024 yılı sonuna kadar iflas edebileceğini söyledi.

Raporda, OpenAI'nin yalnızca yapay zeka hizmeti ChatGPT'yi çalıştırmanın günlük yaklaşık 700.000 ABD dolarına mal olduğu belirtildi. Şu anda şirket, GPT-3.5 ve GPT-4 ile kâr elde etmeye çalışıyor ancak henüz başabaş noktasına yetecek kadar gelir elde edemedi.

Ancak OpenAI'nin yeni bir dönüm noktası da olabilir.

Birkaç gün önce OpenAI, ilk geliştirici konferansını kasım ayında düzenleyeceğini açıklamıştı.

OpenAI, GPT-5'i yayınlamayacağını belirtse de OpenAI, dünyanın dört bir yanından yüzlerce geliştiricinin "yeni araçları" önceden önizlemek ve fikir alışverişinde bulunmak için OpenAI ekibiyle birlikte çalışacağını söyledi.

Bu, ChatGPT'nin yeni bir ilerleme kaydettiği anlamına gelebilir.

The Paper'ın haberine göre, 30 Ağustos'ta konuya aşina bir kişi, OpenAI'nin önümüzdeki 12 ay içinde yapay zeka yazılımını ve operasyonlarını yürütecek bilgi işlem gücünü satarak 1 milyar dolardan fazla gelir elde etmesinin beklendiğini açıkladı.

Bugün başka bir medya raporunda, Morgan Stanley'nin bu ayın sonlarında OpenAI ile ortaklaşa geliştirilen üretken bir yapay zeka sohbet robotunu piyasaya süreceği belirtildi.

Morgan Stanley bankacılarıyla iş yapan insanlar ya zengin ya da pahalıdır. Yaklaşan bu üretken yapay zeka sohbet robotu, Morgan Stanley'in müşterilerine farklı bir deneyim getirebilirse, bu OpenAI için büyük bir kazanç olabilir.

Yapay zeka çağının gelişi durdurulamaz. Sonuçta kimin daha iyi olduğuna gelince, sadece kendinize güvenemezsiniz, kullanıcıların puan almasına da izin vermelisiniz. Ayrıca yerli büyük ölçekli modellerin belirli yetenekler ve kapsamlı yetenekler açısından ChatGPT'yi kesinlikle yakalayacağına ve yakalayabileceğine inanıyoruz.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Altcoin Season Coming?
24k Popularity
2Stablecoin Regulation Crackdown
9k Popularity
3Gate June Transparency Report
22k Popularity
4ETH Breaks Through $3,800
28k Popularity
5Institutions Buying Bitcoin
17k Popularity

sitemap