Yeni büyük modeller her fırsatta GPT-4'ü geride bıraktığını iddia ediyor ve bu inceleme araçlarını bir araya getirdik

2023-10-24 07:33:22

Kaynak: Yapay Zeka Öncü Görevlisi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

ChatGPT'nin ortaya çıkışından bu yana, dünya çapında büyük modeller için bir "silahlanma yarışı" yaşandı. Raporlara göre, bu yılın ocak ayından temmuz ayına kadar Çin'de toplam 64 büyük model piyasaya sürüldü. Temmuz 2023 itibariyle Çin'de toplam 130 büyük model piyasaya sürüldü.

"Yüz model savaşı" bugünün kavurucu "savaş durumunu" tanımlamak için yeterli değil, peki hangi büyük model daha iyi? Bu, büyük modellerin değerlendirilmesinden ayrılamaz.

Ancak bu aşamada, yurtiçinde ve yurtdışında büyük model değerlendirme alanında bir "liste savaşına" yol açan, tanınmış ve etkili bir değerlendirme yöntemi bulunmamaktadır. Eksik istatistikler, şu anda piyasada en az 50 değerlendirme aracı (sistemi) bulunmaktadır ve benzer listelerin sonuçları büyük ölçüde değişebilir. Halkın "fırçalama noktaları" hakkındaki şüpheleri sonsuzdur.

** Endüstri genellikle büyük bir modeli değerlendirmek için iki tezahür kriteri olduğuna inanmaktadır: biri parametre sayısı, diğeri ise değerlendirme kümesidir. **

Sözde parametre miktarı, modelin ağırlığı ve yanlılığı da dahil olmak üzere modelde öğrenilebilecek parametrelerin sayısını ifade eder. Parametre sayısının boyutu, modelin karmaşıklığını belirler ve daha fazla parametre ve katman sayısı, büyük modelleri küçük modellerden ayıran ayırt edici özelliklerdir. 2022'de Amerika Birleşik Devletleri'nde bir dizi büyük model tanıtılacak, Stability AI'nin metinden resimlere üretken bir model olan Diffusion'ı piyasaya sürmesinden OpenAI tarafından başlatılan ChatGPT'ye kadar, model parametrelerinin ölçeği on milyarlarca ve yüz milyarlarca çağa girmeye başladı.

**Yüzey göstergelerinden, yüz milyarlarca parametreye sahip modeller genellikle on milyarlarca parametreden daha iyi performans gösterir. Ancak, bu mutlak değildir ve yığın parametrelerinin yetenekleri geliştirmesi gerekmez. Peki, aynı parametre seviyesine sahip bir model iyi ve kötüyü nasıl ayırt etmelidir? Bu, büyük modelin ikinci değerlendirme boyutunun - değerlendirme kümesinin - tanıtılmasını gerektirir.

Değerlendirme kümesi, temel modelin ve ince ayar algoritmasının farklı senaryolarda ve farklı görevlerde kapsamlı etkisini etkin bir şekilde değerlendirmek için oluşturulmuş tek görevli veya çok görevli birleşik bir kıyaslama veri kümesidir ve iki form vardır: açık ve kapalı.

**Bu değerlendirme setleri, farklı alanlar için sınav kağıtları gibidir ve bu "sınav kağıtlarında" büyük modellerin puanlarını test ederek, insanlar büyük modellerin performansını daha sezgisel olarak karşılaştırabilirler. **

Küçük modeller çağında, çoğu model kurum, modellerin kalitesini değerlendirmek için temel olarak akademik değerlendirme kümelerinin etkisini kullanacaktır. Şimdi, büyük model üreticileri de akademik kıyaslama çerçevesine daha aktif bir şekilde katılmaya başladılar ve bunu yetkili bir onay ve pazarlama temeli olarak gördüler.

Piyasada MMLU, Çin değerlendirme modeli C-, SuperCLUE vb. gibi birçok büyük model değerlendirme seti bulunmaktadır.

-1- Değerlendirme Aracı

MMLU

Büyük modeller için bir dil anlama değerlendirmesi olan Massive Multitask Language Understanding, Eylül 2020'de UC Berkeley Üniversitesi'ndeki araştırmacılar tarafından başlatılan, büyük modeller için en ünlü anlamsal anlama değerlendirmelerinden biridir. **Test, temel matematik, ABD tarihi, bilgisayar bilimi, hukuk ve daha fazlasını içeren 57 görevi kapsar. ** Görev, geniş bir bilgi yelpazesini kapsar ve büyük modelin temel bilgi kapsamını ve anlayışını değerlendirmek için İngilizce'dir.

Bildiri Adresi:

Resmi internet sitesi:

Büyük Model Liderler Sıralaması:

C-

C-, kapsamlı bir Çin temel model değerlendirme kitidir. Mayıs 2023'te Şanghay Jiao Tong Üniversitesi, Tsinghua Üniversitesi ve Edinburgh Üniversitesi'nden araştırmacılar tarafından ortaklaşa başlatılan bu program, Çince büyük modellerin anlaşılmasını ölçmek için 52 farklı disiplini ve dört zorluk seviyesini** kapsayan 13.948 çoktan seçmeli soru** içeriyor.

Bildiri Adresi:

Proje Adresi:

Resmi internet sitesi:

Süper İPUCU

Genel büyük modellerin Çin kapsamlı değerlendirme ölçütü, modellerin yetenekleri üç farklı boyuttan değerlendirilir: temel yetenek, profesyonel yetenek ve Çin karakteristik yeteneği.

Bunlar arasında temel yetenek yetenekleri şunları içerir: ** Anlamsal anlama, diyalog, mantıksal akıl yürütme, rol simülasyonu, kod, oluşturma ve yaratma ve diğer 10 yetenek. **

Mesleki yeterlilikler şunları içerir: Matematik, fizik, coğrafyadan sosyal bilimlere kadar 50'den fazla yetkinliği kapsayan ortaöğretim, üniversite ve mesleki sınavları içerir.

Çince karakteristik yeteneği: Çince özelliklere sahip görevler için, Çince deyimler, şiir, edebiyat ve glifler gibi 10'dan fazla yetenek içerir.

Proje Adresi:

Resmi internet sitesi:

SuperCLUE Langya Listesi

Çin evrensel büyük model anonim savaş değerlendirme kriteri, ChatbotArena ile aynı, anonim ve rastgele çatışma değerlendirmesi için farklı büyük model ürünleri kitle kaynak kullanımı, sonuçlar Elo derecelendirme sistemine dayanmaktadır.

Proje Adresi:

LYB (Lyb)

Chatbot Arenası

ChatbotArena, UC Berkeley, UC San Diego ve Carnegie Mellon Üniversitesi tarafından kurulan bir araştırma kuruluşu olan LMSYS Org tarafından Büyük Dil Modelleri (LLM'ler) için bir kıyaslama platformudur.

** Kitle kaynaklı anonim rastgele eşleşmeler için LLM kıyaslama platformu. **Demo deneyim adresi üzerinden savaş platformuna girin. İlgilendiğiniz soruyu girin, soruyu gönderdikten sonra, anonim model sırasıyla ilgili cevapları oluşturmak için çiftler halinde oynayacak ve kullanıcıların cevapları değerlendirmesini ve 4 değerlendirme seçeneğinden birini seçmesini gerektirecektir: A modeli daha iyi, B modeli daha iyi, beraberlik ve hepsi zayıf. Birden fazla konuşma turu için destek. Son olarak, Elo puanlama sistemi, büyük modellerin yeteneklerini kapsamlı bir şekilde değerlendirmek için kullanılır. (Etkiyi görmek için modeli kendiniz belirleyebilirsiniz, ancak son sıralamada sayılmayacaktır).

Proje Adresi:

Resmi internet sitesi:

Bayrak

Flag, kapsamlı ve ayrıntılı değerlendirme sonuçları sağlamak için "yetenek-görev-indeksi" üç boyutlu değerlendirme çerçevesini** kullanan büyük ölçekli bir model değerlendirme platformudur. Platform, 30'dan fazla yetenek, 5 görev ve 4 gösterge kategorisi, 22 öznel ve nesnel değerlendirme veri seti ve 84433 soru dahil olmak üzere toplam 600'den fazla kapsamlı değerlendirme boyutu sağlamıştır.

Flag'in ilk aşaması, büyük dilli bir model değerlendirme sistemi, açık kaynaklı çok dilli bir metin ve grafik büyük model değerlendirme aracı mCLIP ve açık kaynaklı bir metin ve görüntü oluşturma değerlendirme aracı olan Image'ı başlattı. Libra ayrıca, dil modelini daha bilimsel ve kapsamlı bir şekilde değerlendirmek için dil modeli değerlendirmesi ve psikoloji, eğitim, etik ve diğer sosyal disiplinlerin çapraz araştırmalarını keşfetmeye devam edecektir. Büyük model geliştiricilerini ve kullanıcılarını hedefleyen Flag, geliştirme ekiplerinin modellerinin zayıf yönlerini anlamalarına ve teknolojik yeniliği yönlendirmelerine yardımcı olmak için tasarlanmıştır.

Proje Adresi:

Resmi internet sitesi:

Açık Pusula

Ağustos 2023'te Şanghay Yapay Zeka Laboratuvarı (Şanghay Yapay Zeka Laboratuvarı), eksiksiz bir açık kaynaklı tekrarlanabilir değerlendirme çerçevesi** aracılığıyla çeşitli büyük dil modelleri ve çok modlu model modellerinin tek elden değerlendirilmesini destekleyen OpenCompass büyük model açık değerlendirme sistemini resmi olarak başlattı ve değerlendirme sonuç listesini düzenli olarak yayınladı.

Resmi internet sitesi:

Proje Adresi:

JioNLP

LLM modelinin insan kullanıcılar için yardım etkisini ve yardımcı yeteneğini incelemek için, bir "akıllı asistan" seviyesine ulaşıp ulaşamayacağını, çoktan seçmeli sorular, Çin anakarası Çin'deki çeşitli profesyonel sınavlardan türetilmiştir ve modelin nesnel bilgisinin kapsamına odaklanarak,% 32'sini oluşturmaktadır; Öznel sorular günlük özetlerden gelir ve esas olarak kullanıcıların LLM'nin ortak işlevleri üzerindeki etkisini inceler.

Proje Adresi:

Veri kümelerini ölçme

Tsinghua Security Büyük Model Değerlendirmesi

Tsinghua tarafından toplanan incelemelerden oluşan bir koleksiyon, nefret söylemi, önyargılı ve ayrımcı söylem, suç ve hukuk, mahremiyet, etik ve ahlak dahil olmak üzere sekiz kategoriyi kapsar ve ayrıntılı kategorilere ayrılmış 40'tan fazla ikinci düzey güvenlik kategorisi içerir**.

Adres:

LLM-3

Fudan Üniversitesi NLP Laboratuvarı tarafından başlatılan, felsefe, ekonomi, hukuk, eğitim, edebiyat, tarih, bilim, mühendislik, tarım, tıp, askeri bilim, yönetim, sanat vb. gibi Milli Eğitim Bakanlığı tarafından belirlenen 13 disiplini ve 50'den fazla ikinci düzey disiplini kapsayan mesleki bilgi ve yetenek değerlendirmesine odaklanmaktadır. Sıralamaları fırçalama olgusunun ortaya çıkmasını önlemek için, LLM-3 değerlendirmesi yeni bir değerlendirme modunu, yani "soru bankası sınavı" modunu benimser.

Adres:

GAOKAO-Tezgah

GAOKAO-bench, büyük modellerin dil anlama yeteneğini ve mantıksal akıl yürütme yeteneğini değerlendirmek için Çin kolej giriş sınavı sorularını bir veri kümesi olarak kullanan bir değerlendirme çerçevesidir.

Proje Adresi:

PandaLM

Doğrudan otomatik bir puanlama modelini eğitir ve 0.1.2 üç noktalı bir sistemde iki aday modeli puanlar.

Proje Adresi:

BÜYÜK TEZGAH

Google tarafından yayınlanan bir inceleme koleksiyonu olan BIG-bench, dilbilim, çocuk gelişimi, matematik, sağduyu akıl yürütme, biyolojik fizik, sosyal önyargı, yazılım geliştirme ve daha fazlası gibi konularda 204 görevden oluşur.

Proje Adresi:

MMCU

Oracle Yi AI Araştırma Enstitüsü, çoklu görevleri yerine getirmede Çin büyük modellerinin doğruluğunu ölçmek için bir test önermektedir ve veri kümesinin test içeriği dört ana alanı kapsamaktadır: tıbbi tedavi, hukuk, psikoloji ve eğitim. **Tıp alanında 2819 soru, hukuk alanında 3695 soru, psikoloji alanında 2001 soru ve eğitim alanında 3331 soru olmak üzere soru sayısı 10.000+'a ulaşmıştır.

Proje Adresi:

HAREKET

Microsoft'un Nisan 2023'te kullanıma sunulan Büyük Model Temel Yetkinlik Değerlendirme Karşılaştırması, Çince ve İngilizce veriler de dahil olmak üzere dünyanın dört bir yanındaki sıradan insan adaylar için 20 resmi, halka açık ve yüksek standartlı kabul ve yeterlilik sınavını kapsayan, esas olarak büyük modellerin insan bilişi ve problem çözmedeki genel yeteneğini ölçer. Bu nedenle test, hem Çince hem de İngilizce'yi kapsayan insan test sonuçlarına daha yatkındır.

Bildiri Adresi:

GSM8K

OpenAI'nin büyük modeli olan Matematiksel Akıl Yürütme Yeterlilik Değerlendirme Karşılaştırması, ortaokul düzeyinde 8.500 yüksek kaliteli matematik problemi veri kümesini kapsar. Veri seti, önceki matematik metin problemi veri kümesinden daha büyüktür, dil daha çeşitlidir ve sorular daha zordur. Test Ekim 2021'de piyasaya sürüldü ve çok zor bir test ölçütü olmaya devam ediyor.

Bildiri Adresi:

DÜMEN

HELM değerlendirme yöntemi temel olarak üç modülden oluşur: sahne, uyarlama ve göstergeler**, ve her değerlendirme çalışmasının bir sahne, uyarlama modeli için bir bilgi istemi ve bir veya daha fazla gösterge belirtmesi gerekir. Doğruluk, belirsizlik/kalibrasyon, sağlamlık, adalet, önyargı, toksisite ve çıkarım verimliliği dahil olmak üzere 7 gösterge ile temel olarak İngilizce'yi kapsar; Görevler arasında Soru-Cevap, bilgi alma, özetler, metin sınıflandırması ve daha fazlası yer alır.

Bildiri Adresi:

Proje Adresi:

Çince-LLalA-Alpaka

GPT4 tercih edilir ve kısmen ChatGPT3 ile göreceli bir değer olarak puanlanır.

Proje Adresi:

MT tezgahı

Büyük modellerin çok dönüşlü diyalog ve talimat takip yeteneklerini değerlendirin. Veri seti, her biri 6 iyi bilinen büyük model (GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B ve LLaMA-13B) tarafından yanıtlanan 80 (8kategori*10 soru) yüksek kaliteli, çok yönlü diyalog sorusu içerir ve 3.3K çift çifti elde etmek için manuel olarak sıralanır.

Bildiri Adresi:

MT-Bench ve Chatbot Arena ile LLM'yi jüri olarak değerlendirmek

github (İngilizce)

Proje Adresi:

/ağaç/ana/fastchat/llm_judge

Veri indirme adresi:

-2- Değerlendirme Modu

Yukarıdaki değerlendirme araçları aracılığıyla, mevcut ortak büyük model değerlendirme modlarının kabaca dört türe ayrılabileceği bulunmuştur:

**1. Soruları puanlayın. ** Temel olarak çeşitli değerlendirme veri kümeleri toplayın ve ardından veri kümelerini farklı boyutsal yeteneklere bölün. Büyük modellerin bu veri kümelerini yapmasına izin veren bazı görevler tasarlayarak, puanlar standart yanıtlara göre hesaplanır. Tipik örnekler OpenCompass, huggingface'in openLLM lider tablosu vb.

**2. GPT-4'ün yargıç olmasına izin verin. Değerlendirme için veri kümelerini toplayın (açık kaynak olmayan ve standart yanıtları olmayan bazı veri kümeleri de dahil edilecektir) ve ardından GPT-4'ün büyük model oluşturmanın sonuçlarını değerlendirmesine izin verin. Bu değerlendirme sürecini puanlamanın iki yolu vardır, biri doğrudan puanlamak, diğeri ise gerçekler, doğruluk, güvenlik uyumluluğu vb. gibi bazı boyutları tasarlamak ve ardından bunları daha ayrıntılı bir düzeyde değerlendirmektir.

**3. Arena Modu. **Rekabetçi bir oyundaki arenaya benzer. Her iki büyük model PK oyuncusunda, kullanıcı (bazen GPT-4) hangi modelin daha iyi olduğunu değerlendirmek için, kazanan büyük modelin ekstra puanı vardır ve kaybeden büyük modelin eksi vardır. Yeterli PK turu yürütüldüğünde, nispeten adil olan ve modelin gücünü objektif olarak yansıtabilen büyük modellerin bir puan sıralaması olacaktır. Tipik bir örnek, UC Berkeley'in Chatbot Arena Liderlik Tablosudur.

**4. Bireysel yeterliliklerin değerlendirilmesi. Örneğin, matematiksel yetenek, kod yeteneği, akıl yürütme yeteneği vb. için, bu yeteneklerin değerlendirilmesi, yalnızca büyük bir modelin gerçekten insan benzeri düşünme yeteneğine sahip olup olmadığını belirlemekle kalmaz, aynı zamanda belirli alanlarda büyük modellerin (kod asistanları gibi) seçilmesine de doğrudan yardımcı olur.

-3- Değerlendirme sonuçları "çok farklı"

Birçok farklı değerlendirme aracı vardır ve farklı değerlendirme araçlarının değerlendirme sonuçları da "çok farklıdır".

15 Ağustos'ta, bir kurumun yerli ana akım büyük modellerin kullanım deneyiminin yatay bir değerlendirmesini yapan yapay zeka büyük model deneyimi raporu yayınlandı. Liste, Çin'deki 8 ana akım yapay zeka modelini 500 soruyla değerlendirdi ve son olarak Xunfei Xinghuo birinci, Baidu Wenxin ikinci ve Ali Tongyi Qianwen alttan ikinci sırada yer aldı.

Eylül ayında, popüler açık kaynak değerlendirme listesi C'nin son sayısında, Yuntian Lifei'nin büyük modeli "Yuntianshu" ilk sırada yer alırken, GPT-4 yalnızca onuncu sırada yer aldı.

Aynı ay, SuperCLUE Eylül ayı büyük modeller listesini yayınladı. GPT-4 genel listede ilk sırada yer alırken, SenseTime'ın SenseChat 3.0'ı Çin listesinin başında yer aldı.

19 Ekim'de Stanford Üniversitesi, şeffaflık için 10 ana akım temel modeli derecelendiren 2023 Temel Model Şeffaflık Endeksi'ni yayınladı ve Llama 2 birinci ve GPT-4 üçüncü sırada yer aldı.

Çeşitli inceleme araçlarının sonuçları neden bu kadar farklı? Başlıca nedenler aşağıdaki gibidir:

**1.Her popüler akademik inceleme setinin kendi odak noktası vardır. **Örneğin, Meta tarafından en yaygın olarak kullanılan GSM8K ve MMLU, farklı seviyeler için test setleridir - ilki temel matematik, ikincisi ise daha gelişmiş multidisipliner soru ve cevaptır. Tıpkı bir sınıftaki öğrencilerin farklı konularda sınavlara girmesi gibi, büyük modeller de doğal olarak farklı listelerde farklı sıralarda yer alır.

**2.Büyük model değerlendirmesinde öznel soruların oranı artar. **Yurtiçi ve yurtdışındaki büyük modellerin güncel değerlendirme listesinde, öznel sorular ile nesnel soruların birleştirilmesi fikri genellikle endüstri tarafından kabul görmektedir. Ancak öznel soruların zorluğu, herkesin aklındaki değerlendirme kriterlerinin tutarlı olup olmadığıdır. Ve "insan ekibi derecelendirmesi" kaçınılmaz olarak soru sayısının tavanına dokunuyor ve büyük model değerlendirmeleri için soru sayısı ne kadar büyükse, sonuçlar o kadar etkili oluyor.

**3. Özel modeller ile genel amaçlı büyük modeller arasındaki dikey rekabet, çarpık sıralamalara yol açar. **Gerçek açılış senaryosunda, üretim, sağlık, finans ve diğer sektörlerdeki kurumsal müşterilerin büyük model özelliklerine erişirken kendi veritabanlarına göre ikincil ince ayar yapmaları gerekir. Bu aynı zamanda, orijinal genel büyük modelin dikey Soru-Cevap alanına doğrudan katılımıyla elde edilen sonuçların, büyük model ürünün dikey alandaki gerçek performansını temsil edemeyeceği anlamına gelir.

**4. Açık kaynak test setinin neden olduğu "listeyi fırçalama" olgusu. **Birçok yeni büyük model, kısmen "sorunların fırçalanması" şüphesi nedeniyle açık kaynak test seti listesinde GPT-4'ü geçebilir. Örneğin, C- şu anda sadece soru açıklanıyor ancak cevap açıklanmıyor ve teste katılan büyük model üreticileri ya soruyu tekrar yapmak için bir veri açıklayıcısı buluyor ya da soruyu tekrar yapmak için GPT-4'ü kullanıyor ve ardından ilgili konu testinden tam not alabilmeleri için büyük modeli eğitmek için cevabı düşüyorlar.

Kapalı kaynak inceleme kümeleri "listeyi fırçalamaktan" kaçınabilir mi? Aksi takdirde, kapalı kaynak değerlendirme seti güncellenmezse, katılımcı modeller "hile yapmak" için geçmiş geçmişi arka plandan çekebilir ve test edilen soruları yeniden yapabilir. Bu, "yanlış kapalı kaynak" ile eşdeğerdir.

**Yukarıdaki sorunlara yanıt olarak, endüstri de ilgili çözümleri araştırıyor. **

Örneğin, büyük model değerlendirmesinde öznel sorular için tutarlı değerlendirme kriterlerinin zorluğu ve "insan ekibi puanı"nın soru sayısının tavanına dokunması sorunu için endüstri "insan + GPT4 puanlaması" modelini benimsemeye başlamıştır. Çin'de SuperCLUE, GPT4'ü bir "not öğretmeni" olarak görmeyi seçecek ve puanlamaya yardımcı olmak için insan ekibine katılmasına izin verecek.

Başka bir örnek, "listeyi fırçalama" sorunudur, endüstrinin içindekiler, "aldatılmamak için değerlendirme kümesinin kapatılması gerektiğine, ancak iyi bir büyük model değerlendirmesinin, herkesin değerlendirmeyi denetlemesi için uygun olan sürecin açık bir değerlendirmesi olması gerektiğine" inanmaktadır. "

Bazı insanlar da büyük model değerlendirme sürecini halka açık hale getirmenin iyi bir vizyon olduğuna inanıyor, ancak değerlendirmenin adilliği ve tarafsızlığı göz önüne alındığında, yine de çok sayıda kapalı değerlendirme seti olmalı ve "kapalı kitap incelemesi" modelin yeteneğini gerçekten değerlendirebilir.

Buna ek olarak, Fudan Üniversitesi NLP Laboratuvarı tarafından başlatılan ve yeni bir değerlendirme modunu, yani "soru bankası sınavı" modunu benimseyen LLM-3 gibi, fırçaya dayanıklı puanların büyük model değerlendirmeleri vardır. LLM-3'te, her bir değerlendirme sorusunun tekrarlanmamasını sağlamak için, her katılımcı sistemin, aynı kurumun modeline karşı, toplam soru bankasından rastgele 1.000 soruluk bir örneği tamamlaması gerekir. Değerlendirme süreci çevrimiçi olarak gerçekleştirilecek ve bir değerlendirme turunda soruların gönderilmesi seri olarak gerçekleştirilecektir, yani bir sonraki sorunun gönderilmesi, kötü niyetli taramayı önlemek için bir önceki sorunun cevabına bağlı olacaktır.

Büyük modeller çok çeşitli alanları ve uygulamaları içerdiğinden, farklı alan ve uygulamalardaki büyük modellerin dikkat etmesi gereken göstergeler ve değerlendirme yöntemleri farklıdır. Bu nedenle, farklı kurum ve kuruluşlar, belirli uygulama alanları ve ihtiyaçları için farklı değerlendirme kriterleri ve yöntemleri önerebilir. "Tek tip bir standart olmamasına rağmen, değerlendirmenin önemi, farklı büyük modellerin performansını ve etkinliğini değerlendirmek ve karşılaştırmak için bir yol sağlamak ve kullanıcıların ihtiyaçlarına uygun büyük modeli seçmelerine yardımcı olmaktır."

Büyük modellerin gerçekten kapsamlı ve kapsamlı bir değerlendirmesinin nasıl yapılacağı da akademi ve endüstrinin ön saflarında "karışık". Buna rağmen, yetkili kurumlar araştırmayı güçlendirmeli, mümkün olan en kısa sürede fikir birliği oluşturmalı ve teknolojik ilerlemeyi ve endüstri gelişimini teşvik etmelidir.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Alpha Points System Opens
16k Popularity
2Crypto Market Rebound
145k Popularity
3SEC Crypto Project
2k Popularity
4CandyDrop Airdrop Event 6.0
92k Popularity
5White House Crypto Report
78k Popularity

sitemap