Açık Kaynak Karşılaştırması! En güçlü Çince-İngilizce iki dilli büyük model, 34 milyar parametre ile Llama2-70B gibi tüm açık kaynaklı modelleri geride bırakarak burada

Yazar:Jin Lei

Kaynak: Qubits

Açık kaynak dünyasındaki en güçlü Çince-İngilizce iki dilli model olan Wudao Skyhawk 34B burada!

Ne kadar güçlü? Tek kelimeyle:

Çince ve İngilizce kapsamlı yetenek, mantıksal akıl yürütme yeteneği vb., Llama2-70B'yi ve önceki tüm açık kaynak modellerini kapsamlı bir şekilde aşıyor!

Akıl yürütme yeteneği açısından, diyalog modelinin IRD değerlendirme ölçütü GPT4'ten sonra ikinci sıradadır.

Model sadece savaşacak kadar büyük olmakla kalmıyor, aynı zamanda tek seferde eksiksiz bir "aile namlusu" düzeyinde lüks çevre birimi seti gönderiyor.

Bu kadar büyük bir anlaşmaya sahip olabilecek şey, Çin'in büyük model açık kaynak okulu KLCII Araştırma Enstitüsü'nün öncüsüdür.

KLCII'nin yıllar içindeki büyük model açık kaynak yaklaşımına bakarsanız, yeni bir trende öncülük ettiğini bulmak zor değil:

2021 gibi erken bir tarihte, dünyanın en büyük külliyatı halka açıldı ve 2022'de FlagOpen büyük model teknolojisi açık kaynak sistemini ilk ileten oldu ve art arda Flag değerlendirme sistemini, COIG veri setini, BGE vektör modelini ve diğer tam teknoloji yığın yıldız projelerini başlattı.

Bu cesaret, KLCII'nin ticari olmayan, kar amacı gütmeyen, tarafsız bir araştırma kurumu olarak konumlandırılmasından kaynaklanmaktadır ve ana odak noktası "samimi bir açık kaynak ortak yaratımı"dır.

Aquila2-34B kaide modelinin, dil, anlama, akıl yürütme, kod, sınav ve diğer değerlendirme boyutları dahil olmak üzere 22 değerlendirme kriterinin kapsamlı sıralamasına öncülük ettiği anlaşılmaktadır.

İşte bu duyguyu hissetmek için bir resim:

△Şekil: Temel model değerlendirme sonuçları (ayrıntılı veri kümesi değerlendirme sonuçları için resmi açık kaynak deposuna bakın)

Az önce de belirtildiği gibi, Pekin KLCII Yapay Zeka Araştırma Enstitüsü de açık kaynağı sonuna kadar çok vicdanlı bir şekilde uyguluyor ve açık kaynağı tek seferde tüm aile namlusuna getiriyor:

Aquila2 model serisini tamamen yükseltin: Aquila2-34B/7B temel modeli, AquilaChat2-34B/7B diyalog modeli, AquilaSQL "metin-SQL dili" modeli;

Semantik vektör modeli BGE'nin yeni sürümü yükseltildi: dört ana arama gereksiniminin tümü kapsanıyor.

FlagScale verimli paralel eğitim çerçevesi: sektör lideri eğitim verimi ve GPU kullanımı;

FlagAttention Yüksek performanslı dikkat alt kümesi: Uzun metin eğitimi ve Triton dili için yenilikçi destek.

Şimdi, bu sefer "en güçlü açık kaynağa" daha yakından bakalım.

Bir bakışta "En Güçlü Açık Kaynak" yetenekleri

Az önce de belirttiğimiz gibi, "en güçlü açık kaynak" pozunda açılan ayaklı modellerden biri olan Aquila2-34B, daha küçük bir Aquila2-7B de içeriyor.

Ve bu ikisinin gelişi, aşağı akış modelini de çok karlı hale getiriyor.

En güçlü açık kaynaklı diyalog modeli

Talimatlarda ince ayar yapıldıktan sonra, mükemmel AquilaChat2 diyalog modeli serisi elde edildi:

AquilaChat2-34B: Öznel + nesnel kapsamlı değerlendirmede lider olan en güçlü açık kaynaklı Çince-İngilizce iki dilli diyalog modelidir;

AquilaChat2-7B: aynı büyüklükteki Çince-İngilizce diyalog modelinde de en iyi genel performans performansını elde etti.

△ SFT modeli değerlendirme sonuçları (ayrıntılı veri kümesi değerlendirme sonuçları için resmi açık kaynak deposuna bakın)

İnceleme Açıklaması:

Üretken diyalog modeli için KLCII ekibi, kullanıcının gerçek kullanım durumuna yakın olan "soru girişi altında modelin serbestçe oluşturulan cevaplarına" göre kesin bir şekilde yargılamanın gerekli olduğuna inanmaktadır, bu nedenle Stanford Üniversitesi HELM'e bakın[1] Modelin bağlamsal öğrenme ve öğretimi takip etme yeteneği için daha katı gereksinimleri olan çalışma değerlendirilir. Gerçek değerlendirme sürecinde, bazı diyalog modeli cevapları komut gereksinimlerini karşılamaz ve "0" puanı oluşabilir.

Örneğin, talimata göre doğru cevap "A" ise, model "B" veya "Cevap A" olarak üretilirse, "0" puan alacaktır.

Aynı zamanda, sektörde diyalog modelinin önce "soru + cevap" dikmesine izin vermek, modelin eklenen her metnin olasılığını hesaplaması, en yüksek olasılığa sahip cevabın doğru cevapla tutarlı olup olmadığını doğrulaması gibi başka değerlendirme yöntemleri de vardır ve diyalog modeli değerlendirme sürecinde herhangi bir içerik üretmeyecek, ancak seçenek olasılığını hesaplayacaktır. Bu değerlendirme yöntemi, gerçek diyalog senaryosundan büyük ölçüde sapmaktadır, bu nedenle üretken diyalog modeli değerlendirmesinde benimsenmemiştir.

[1]

Sadece bu da değil, büyük dil modelleri için çok kritik olan akıl yürütme yeteneği açısından, AquilaChat2-34B'nin performansı da çok şaşırtıcı——

IRD değerlendirme protokolünde Llama2-70B ve GPT3.5 gibi modelleri geride bırakarak ilk sırada ve yalnızca GPT4'ten sonra ikinci sırada yer almaktadır.

△Şekil: SFT modelinin IRD veri setindeki değerlendirme sonuçları

İster bir kaide modeli ister bir diyalog modeli olsun, çeşitli başarılar açısından bakıldığında, Aquila2 serisi açık kaynak endüstrisindeki en güçlü seri olarak adlandırılabilir.

16K'ya kadar bağlam penceresi uzunluğu

Büyük dil modelleri için, uzun metin girişini işleme ve birden fazla diyalog turu sırasında bağlamsal akıcılığı koruma yeteneği, deneyimin iyi mi yoksa kötü mü olduğunu belirlemenin anahtarıdır.

Pekin KLCII Yapay Zeka Araştırma Enstitüsü, bu "büyük modellere uzun süre acı çekme" sorununu çözmek için 200.000 yüksek kaliteli uzun metin diyaloğu veri kümesi üzerinde SFT yaptı ve modelin etkin bağlam penceresi uzunluğunu tek seferde 16K'ya çıkardı.

Ve bu sadece uzunluk iyileştirmesi değil, efekt de optimize edildi.

Örneğin, LongBench'in dört Çince ve İngilizce uzun metin sorusu ve yanıtı, uzun metin özeti görevlerinin değerlendirme etkisinde, çok açıktır ——

AquilaChat2-34B-16K, GPT-3.5 uzun metin modeline yakın, açık kaynaklı uzun metin modellerinin önde gelen seviyesindedir.

△Şekil: Uzun Metin Anlama Görev Değerlendirmesi

Buna ek olarak, KLCII'nin ekibi, ultra uzun metni işleyen çoklu dil modellerinin dikkat dağılımının görsel bir analizini yaptı ve tüm dil modellerinin, bağlam penceresi uzunluğundan önemli ölçüde daha küçük olan sabit bir göreceli konum darboğazına sahip olduğunu buldu.

Bu amaçla, KLCII ekibi, RoPE yöntemi temelinde göreceli konum kodlamasını ayarlayarak ve maksimum bağıl uzunluğu kısıtlayarak model epitaksi yeteneğini geliştiren NLPE (Doğrusal Olmayan Konum Gömme) yöntemini yenilikçi bir şekilde önerdi.

Kod, Çince ve İngilizce Few-Shot Leaning, e-kitaplar ve diğer alanlardaki metin devam deneyleri, NLPE'nin 4K Aquila2-34B modelini 32K uzunluğa kadar genişletebildiğini ve devam eden metnin tutarlılığının Dynamic-NTK, konum enterpolasyonu ve diğer yöntemlerden çok daha iyi olduğunu gösteriyor.

△Şekil: NLPE ve ana akım Dinamik-NTK epitaksi yöntemlerinin Base modelde karşılaştırılması (ppl değeri ne kadar düşükse o kadar iyidir)

Sadece bu da değil, HotpotQA, 2WikiMultihopQA ve 5K~15K uzunluğundaki diğer veri kümelerinde yetenek testini takip eden talimat, NLPE epitaksisinden sonra AquilaChat2-7B'nin (2K) doğruluğunun %17.2 olduğunu, Dynamic-NTK uzantısının AquilaChat2-7B'sinin doğruluğunun ise sadece %0.4 olduğunu gösteriyor.

△Şekil: SFT modellerinde NLPE ve ana akım Dinamik-NTK epitaksiyel yöntemlerin karşılaştırılması

Her türlü gerçek uygulama senaryosu yapılabilir

İyi "sonuçlar", büyük modelleri test etme kriterlerinden yalnızca biridir ve daha da önemlisi, "iyi kullanım son sözdür".

Bu aynı zamanda büyük modellerin genelleme yeteneğidir, görmediğiniz sorunlarla karşılaşsanız bile kolayca başa çıkabilirsiniz.

Bu amaçla, Wudao Skyhawk ekibi, Aquila2 modelinin genelleme yeteneğini üç gerçek dünya uygulama senaryosu aracılığıyla doğruladı.

Minecraft'ta güçlü aracılar oluşturun

Minecraft, AI test teknolojisi için iyi bir test alanı olan bir oyundur.

Sonsuz sayıda karmaşık dünyalar ve çok sayıda açık görev üreterek aracılar için zengin etkileşim arayüzleri sağlar.

Buna dayanarak, KLCII ve Pekin Üniversitesi ekibi, Minecraft çoklu görevini uzman verileri olmadan verimli bir şekilde çözmek için bir yöntem olan Plan4MC'yi buldu.

Plan4MC, içsel ödüllerle pekiştirmeli öğrenmeyi kullanarak aracının temel becerilerini eğitebilir, böylece temsilci, görev planlaması için büyük dil modeli AquilaChat2'nin akıl yürütme yeteneğini kullanabilir.

Örneğin, aşağıdaki videoda, birden fazla diyalog etkileşimi turunu otomatik olarak tamamlamak için AquilaChat2'yi kullanan temsilcinin etkisi gösterilmektedir.

Oyunun "mevcut ortam durumunu" ve "tamamlanması gereken görevleri" AquilaChat2 modeline girin ve AquilaChat2, "daha sonra hangi becerilerin kullanılacağı" ve diğer karar verme bilgilerini karaktere geri besler ve son olarak Minecraft'ta belirlenen görevi tamamlar "Odun kes ve yakına koymak için bir tezgah yap".

Aquila2+BGE2 üzerinden vektör veri tabanını bağla

Vektör veritabanları son yıllarda büyük model çemberinde bir iyilik haline geldi, ancak derin anlayış gerektiren karmaşık problemler karşısında yetenek açısından hala biraz geriliyorlar.

Bu amaçla, KLCII, yalnızca geleneksel vektör kitaplıklarına dayalı geri alma yöntemleriyle çözülemeyen bazı karmaşık geri alma görevlerinin kilidini tamamen açmak için Aqiula2'yi kendi geliştirdiği açık kaynaklı anlamsal vektör modeli BGE2 ile birleştirdi.

Örneğin, aşağıdaki örnekte, "bir yazarın belirli bir konudaki makalelerini almak" ve "bir konuda birden fazla makale için özet metin oluşturmak" gibi görevlerin çok ipeksi hale gelebileceğini açıkça görebiliriz.

Optimal "metin-SQL dili" oluşturma modeli

Birçok kullanıcı, veritabanı sorguları gibi görevlerle uğraşırken SQL için baş ağrısına sahiptir.

Sık kullandığımız yerel dilde çalıştırılabilseydi güzel olmaz mıydı?

Şimdi, bu uygun yol mümkün - AquilaSQL.

Pratik uygulama senaryolarında, kullanıcılar ayrıca AquilaSQL'e dayalı ikincil geliştirme gerçekleştirebilir, yerel bilgi tabanına aşılayabilir, yerel sorgu SQL oluşturabilir veya modelin veri analizi performansını daha da iyileştirebilir, böylece model yalnızca sorgu sonuçlarını döndürmekle kalmaz, aynı zamanda analiz sonuçları ve çizelgeleri de oluşturabilir.

Örneğin, aşağıdaki karmaşık sorgu göreviyle uğraşırken, artık yalnızca doğal dil konuşmanız gerekir:

Satışları 100'den fazla olan arabaları ve araba satışlarını (araba_sales) ve araba rengini (araba_color) içeren iki veri tablosundan kırmızı rengi filtreleyin.

Ve AquilaSQL'in "başarıları" da çok etkileyici.

SQL corpus ile sürekli ön eğitim ve SFT iki aşamalı eğitimden sonra, Cspider'daki SOTA modeli nihayet %67,3 doğrulukla "text-SQL dil oluşturma modeli" sıralamasını aştı.

SQL derlem ince ayarı olmayan GPT4 modelinin doğruluğu yalnızca %30,8'dir.

Ayrıca aile kova düzeyinde açık kaynak da var

Daha önce de belirttiğimiz gibi, KLCII her zaman açık kaynağa odaklanmıştır.

Bu kez, büyük model yükseltmesi vesilesiyle, KLCII ayrıca algoritmalar, veriler, araçlar ve değerlendirmeler dahil olmak üzere bir dizi yıldız projeyi kayıtsız şartsız açık kaynaklı hale getirdi.

Aquila2 serisi modelin yalnızca ticari lisans anlaşmalarını tam olarak benimsemekle kalmayıp, aynı zamanda halkın bunları akademik araştırmalarda ve ticari uygulamalarda yaygın olarak kullanmasına izin verdiği anlaşılmaktadır.

Ardından, bu açık kaynaklı aile paketlerine hızlıca bir göz atalım.

FlagScale, verimli bir paralel eğitim çerçevesi

FlagScale, Aquila2-34B tarafından kullanılan ve büyük dil modelleri için tek noktadan eğitim işlevleri sağlayabilen verimli bir paralel eğitim çerçevesidir.

KLCII'nin ekibi, Aquila2 modelinin eğitim yapılandırmasını, optimizasyon şemasını ve hiper parametrelerini FlagScale projesi aracılığıyla büyük model geliştiricilerle paylaştı ve Çin'de eğitim kodunu ve hiperparametreleri tamamen açık kaynaklı hale getiren ilk ekip oldu.

Megatron-LM uzantısına dayanan FlagScale, dağıtılmış optimize edici durum dilimleme, eğitim sorunu verilerinin hassas konumlandırılması ve parametreden Huggingface'e dönüştürme dahil olmak üzere bir dizi özellik geliştirmesi sunar.

Aquila2'nin sektör lideri eğitim verimi ve GPU kullanımı elde ettiği ölçülmüştür.

△Şekil: FlagScale eğitim verimi ve GPU kullanımı (veri kaynağı ve tahmin formülü için makalenin sonuna bakın)

Gelecekte, FlagScale'in yukarı akış projesi Megatron-LM'nin en son koduyla senkronize olmaya, daha özelleştirilmiş işlevler sunmaya, en son dağıtılmış eğitim ve çıkarım teknolojisini ve ana akım büyük modelleri entegre etmeye, heterojen AI donanımını desteklemeye ve farklı ölçek ve ihtiyaçlardaki model eğitim görevlerini karşılamak için genel, kullanışlı ve verimli bir dağıtılmış büyük model eğitim çıkarım çerçevesi oluşturmaya çalışacağı anlaşılmaktadır.

FlagAttentionYüksek Performanslı Dikkat Açık Kaynak Alt Kümesi

FlagAttention, uzun metin büyük model eğitimini desteklemek için Triton dili kullanılarak geliştirilen ilk yüksek performanslı Attention açık kaynaklı bilgi işlem alt kümesidir ve büyük model eğitiminin gereksinimlerini karşılamak için Flash Attention serisinin Bellek Verimli Dikkat işlecini genişletir.

Şu anda, bölümlere ayrılmış dikkat operatörü - PiecewiseAttention uygulanmıştır.

PiecewiseAttention, esas olarak Transformatör modelinin ekstrapolasyon problemini rotasyon konumu kodlaması (Roformer) ile çözer ve özellikleri şu şekilde özetlenebilir:

Çok yönlülük: Segmentlere ayrılmış bilgi işlem dikkatini kullanan modellerin ortak özelliği, Aquila dışındaki büyük dil modellerine kolayca geçirilebilir.

Kullanım kolaylığı: FlagAttention, Triton dili uygulamasına dayalıdır ve PyTorch arayüzünü sağlayarak derleme ve kurulum sürecini CUDA C tarafından geliştirilen Flash Attention'dan daha kolay hale getirir.

Genişletilebilirlik: Ayrıca Triton dili sayesinde, FlagAttention algoritmasının kendisi değişiklik ve genişletme için düşük bir eşiğe sahiptir ve geliştiriciler bunun üzerine daha fazla yeni özelliği kolayca genişletebilir.

Gelecekte, FlagAttention projesi, büyük model araştırma ihtiyaçları için diğer işlev uzantılarıyla dikkat operatörlerini desteklemeye, operatör performansını daha da optimize etmeye ve daha heterojen yapay zeka donanımına uyum sağlamaya devam edecek.

BGE2 Yeni Nesil Anlamsal Vektör Modeli**

Yeni nesil BGE anlamsal vektör modeli de Aquila2 ile açık kaynak kodlu olacak.

BGE2'deki BGE-LLM Embedder modeli, "bilgi alma", "bellek alma", "örnek arama" ve "araç alma" olmak üzere dört özelliği bütünleştirir.

İlk kez, tek bir anlamsal vektör modeli tarafından büyük bir dil modelinin ana erişim gereksinimlerinin kapsamlı kapsamını gerçekleştirir.

Belirli kullanım durumlarıyla birleştiğinde, BGE-LLM Embedder, bilgi yoğun görevlerin yerine getirilmesi, uzun süreli bellek, talimat takibi ve araç kullanımı gibi önemli alanlarda büyük dil modellerinin performansını önemli ölçüde artıracaktır.

......

Peki bu kadar kapsamlı bir "en güçlü açık kaynak" sizi heyecanlandırıyor mu?

Bir Şey Daha

KLCII, 28-29 Ekim'de büyük modeller için en son teknolojiler üzerine yeni bir çalıştay düzenleyecek ve burada dokuz kilit araştırmacı FlagOpen'ın son ilerlemesini ve uygulamasını tanıtacak.

İlgilenen ortaklar da kodda yaşayabilir.

Aquila2 modeli tam açık kaynak adresi:

AquilaSQL açık kaynak deposu adresi:

FlagAttention açık kaynak deposu:

BGE2 açık kaynak adresi

kâğıt:

model: /llm-embedder

Repo:

LLAMA2 verim tahmin formülü: toplam jetonlar / (toplam GPU saati * 3600), Llama 2: Açık Temel ve İnce Ayarlı Sohbet Modelleri kağıdına göre: 1) 7B'nin toplam jetonu 2.0 T'dir, toplam GPU saati 184320'dir ve formüle ikame edildiğinde 3014 jeton/sn/GPU verir; 2) 34B'nin toplam jetonu 2.0 T'dir, toplam GPU saati 1038336'dir ve formül 535 Jeton/sn/GPU elde etmek için değiştirilir.

— Son —

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)