Az önce, dünyanın en uzun bağlam penceresine sahip Baichuan Intelligent Baichuan2-192K piyasaya sürüldü! Bir keresinde "Üç Cisim Problemi"ni okuduktan sonra 7 SOTA kazandım

2023-10-30 08:07:35

Makale kaynağı: Yeni Zhiyuan

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Dünyanın en uzun bağlam penceresi burada! Bugün Baichuan Intelligent, Claude 2'nin 4,4 katı ve GPT-4'ün 14 katı olan 192K'ya (350.000 Çince karakter) kadar bağlam penceresi uzunluğuna sahip Baichuan2-192K büyük modelini piyasaya sürdü!

Uzun bağlam pencereleri alanında yeni bir ölçüt, burada!

Bugün, Baichuan Intelligent, dünyanın en uzun bağlam penceresine sahip büyük modeli resmi olarak piyasaya sürdü - Baichuan2-192K.

Önceki modelden farklı olarak, bu modelin bağlam penceresi uzunluğu 192K kadar yüksektir ve bu da yaklaşık 350.000 Çince karaktere eşdeğerdir.

Daha spesifik olmak gerekirse, Baichuan2-192K, GPT-4 (32K bağlam, yaklaşık 25.000 kelime) ve Claude 2'den (100K bağlam, yaklaşık 80.000 kelime) 14 kat daha fazla Çince karakter işleyebilir ve "Üç Cisim Problemi"nin bir kopyasını bir oturuşta okuyabilir.

Claude'un uzun süredir tuttuğu bağlam penceresi kaydı bugün yenilendi

Üç Cisim Problemi'nin ilk bölümünü "Bir Zamanlar Dünyada" ona atan Baichuan2-192K biraz çiğnedi ve hemen tüm hikayeyi iyi anladı.

Wang Miao'nun gördüğü geri sayımdaki 36. fotoğraftaki sayı nedir? Cevap: 1194:16:37. Hangi model kamera kullanıyor? A: Leica M2. O ve Dashi toplamda kaç kez içtiler? Cevap: İki kere.

İkinci "Karanlık Orman"a bakıldığında, Baichuan2-192K, Dünya Üç Beden Örgütü'nün iki Kızıl Banka üssü kurduğunu ve "Su Damlacıklarının" güçlü etkileşimlere sahip malzemelerden yapıldığını bir kerede yanıtlamakla kalmadı.

Dahası, "Üç Cisim Problemi ve On Seviye Bilginlerin" cevaplayamayacağı popüler olmayan sorular bile, Baichuan2-192K cevaplarda da akıcıdır ve cevaplaması kolaydır.

İsminin en çok kim göründüğü? Cevap: Luo Ji.

Bağlam penceresi 350.000 kelimeye genişletildiğinde, büyük modeli kullanma deneyiminin aniden yeni bir dünyanın kapılarını araladığı söylenebilir!

Dünyanın en uzun bağlamı, Claude 2'yi her alanda önde götürüyor

Büyük model, boyunda ne sıkışacak?

ChatGPT'yi örnek alırsak, yetenekleri şaşırtıcı olsa da, bu "her şeye gücü yeten" modelin kaçınılmaz bir kısıtlaması vardır - bağlamda yalnızca maksimum 32 bin jetonu (25.000 Çince karakter) destekler. Avukatlar, analistler vb. meslekler çoğu zaman bundan çok daha uzun süren metinlerle uğraşmak zorunda kalırlar.

Daha geniş bir bağlam penceresi, modelin girdiden daha zengin anlamsal bilgiler elde etmesine ve hatta tam metin anlayışına dayalı olarak doğrudan Soru-Cevap ve bilgi işleme gerçekleştirmesine olanak tanır.

Sonuç olarak, model yalnızca bağlamın alaka düzeyini daha iyi yakalamak, belirsizliği ortadan kaldırmakla kalmaz, aynı zamanda içeriği daha doğru bir şekilde üretebilir, "yanılsama" sorununu hafifletebilir ve performansı iyileştirebilir. Dahası, uzun bağlamın kutsamasıyla, daha dikey sahnelerle derinden birleştirilebilir ve insanların işinde, yaşamında ve öğrenmesinde gerçekten bir rol oynayabilir.

Son zamanlarda, Silikon Vadisi unicorn'u Anthropic, Amazon'dan 4 milyar, Google'dan ise 2 milyar yatırım aldı. İki devin teveccühü elbette Claude'un uzun bağlam yetenek teknolojisindeki lider konumuyla ilgili.

Bu kez, Baichuan Intelligence tarafından yayınlanan Baichuan-192K uzun pencere modeli, bağlam penceresinin uzunluğu açısından Claude 2-100K'yı çok aşıyor ve ayrıca metin oluşturma kalitesi, bağlam anlayışı ve Soru-Cevap yeteneği gibi çoklu boyutların değerlendirilmesinde kapsamlı bir liderlik elde etti.

10 yetkili inceleme, 7 SOTA

Uzun, Kaliforniya Üniversitesi, Berkeley ve diğer üniversiteler tarafından uzun pencere modellerinin değerlendirilmesi için yayınlanan ve esas olarak modelin uzun pencerelerin içeriğini hatırlama ve anlama yeteneğini ölçen bir listedir.

Bağlamsal anlayış açısından, Baichuan2-192K, yetkili uzun pencere metin anlama değerlendirme listesi Long'daki diğer modellerden önemli ölçüde öndedir ve 100K'dan fazla bir pencere uzunluğundan sonra hala çok güçlü performansı koruyabilir.

Buna karşılık, Claude 2 pencere uzunluğu 80K'yı aştıktan sonra genel etki çok kötü bir şekilde düşer.

Buna ek olarak, Baichuan2-192K, Dureader, NarrativeQA, LSHT ve TriviaQA gibi Çince ve İngilizce uzun metin Soru-Cevap ve özetlerden oluşan 10 değerlendirme setinde de iyi performans gösterdi.

Bunların arasında 7'si, diğer uzun pencereli modellerden önemli ölçüde daha iyi performans gösteren SOTA'ya ulaştı.

Metin oluşturma kalitesi söz konusu olduğunda karışıklık çok önemli bir kriterdir.

Basitçe anlaşılabilir ki, insanın doğal dil alışkanlıklarına uyan yüksek kaliteli bir belge test seti olarak kullanıldığında, modelin test setinin Çince versiyonunu oluşturma olasılığı ne kadar yüksekse, modelin karışıklığı o kadar küçük ve model o kadar iyidir.

DeepMind tarafından yayınlanan "Language Modeling Benchmark Dataset PG-19"un test sonuçlarına göre, Baichuan2-192K'nın karışıklık seviyesi ilk aşamada mükemmeldi ve Baichuan2-192K'nın dizi modelleme yeteneği, pencere uzunluğu genişledikçe gelişmeye devam etti.

### Mühendislik algoritmalarının ortak optimizasyonu, uzunluk performansının senkron iyileştirilmesi

Uzun bağlamlar model performansını iyileştirebilirken, uzun pencereler aynı zamanda daha fazla bilgi işlem gücü ve daha fazla video belleği anlamına gelir.

Şu anda, sektördeki yaygın uygulama, pencereyi kaydırmak, örneklemeyi azaltmak, modeli küçültmek vb.

Bununla birlikte, bu yaklaşımların tümü, modelin diğer yönlerini değişen derecelerde feda eder.

Bu sorunu çözmek için Baichuan2-192K, algoritmaların ve mühendisliğin aşırı optimizasyonu yoluyla pencere uzunluğu ve model performansı arasında bir denge sağlar ve pencere uzunluğu ile model performansının aynı anda iyileştirilmesini sağlar.

Her şeyden önce, algoritmalar açısından, Baichuan Intelligent, farklı uzunluklarda ALiBi konum kodlaması için farklı derecelerde Dikkat maskesi dinamik enterpolasyonu gerçekleştirebilen RoPE ve ALiBi dinamik konum kodlaması için bir ekstrapolasyon şeması önermektedir, bu da modelin modelleme yeteneğini geliştirebilir çözünürlüğü sağlarken uzun dizilere güvenmek.

İkinci olarak, mühendislik açısından, kendi geliştirdiği dağıtılmış eğitim çerçevesi temelinde, Baichuan Intelligence, tensör paralelliği, akış paralelliği, dizi paralelliği, yeniden hesaplama ve Boşaltma dahil olmak üzere piyasadaki hemen hemen tüm gelişmiş optimizasyon teknolojilerini entegre eder ve modelin belirli yük durumuna göre en uygun dağıtılmış stratejiyi otomatik olarak bulabilen, uzun pencereli eğitim ve çıkarım sürecinde bellek işgalini büyük ölçüde azaltan kapsamlı bir 4D paralel dağıtılmış şema seti oluşturmuştur.

Dahili test resmi olarak açıldı ve ilk elden deneyim yayınlandı

Şimdi, Baichuan2-192K resmi olarak kapalı betaya başladı!

Baichuan2-192K, API çağrıları aracılığıyla kendi uygulamalarına ve işletmelerine bağlandı ve şimdi finansal medya, hukuk firmaları ve diğer kurumlar Baichuan Intelligence ile işbirliğine ulaştı.

Baichuan2-192K'nın dünya lideri uzun bağlam yeteneklerinin medya, finans ve hukuk gibi belirli senaryolara uygulanmasıyla, şüphesiz büyük modellerin uygulanması için daha geniş bir alanı genişleteceği düşünülebilir.

API'ler aracılığıyla Baichuan2-192K, daha dikey sahnelere etkili bir şekilde entegre edilebilir ve onlarla derinlemesine entegre edilebilir.

Geçmişte, büyük miktarda içeriğe sahip belgeler genellikle işimizde ve çalışmamızda geçemediğimiz bir dağ haline geldi.

Baichuan2-192K ile yüzlerce sayfa materyal aynı anda işlenebilir ve analiz edilebilir ve kritik bilgiler çıkarılabilir ve analiz edilebilir.

İster uzun bir belge özeti/incelemesi, ister uzun bir makale veya rapor, ister karmaşık bir programlama yardımı olsun, Baichuan2-192K büyük bir destek sağlayacaktır.

Fon yöneticileri için finansal tabloların özetlenmesine ve yorumlanmasına, şirketin risklerinin ve fırsatlarının analiz edilmesine yardımcı olabilir.

Avukatlar için, birden fazla yasal belgedeki risklerin belirlenmesine, sözleşmelerin ve yasal belgelerin gözden geçirilmesine yardımcı olabilir.

Geliştiriciler için yüzlerce sayfalık geliştirme belgesini okumaya ve teknik soruları yanıtlamaya yardımcı olabilir.

O zamandan beri, bilimsel araştırmacıların çoğunluğu da bilimsel bir araştırma aracına sahip oldu ve çok sayıda makaleye hızlı bir şekilde göz atabilir ve en son gelişmeleri özetleyebilirler.

Bunun da ötesinde, daha uzun bir bağlam daha da büyük bir potansiyele sahiptir.

Ajan ve multimodal uygulamalar, mevcut endüstrideki öncü araştırma noktalarıdır. Daha uzun bağlamsal yeteneklerle, büyük modeller karmaşık çok modlu girdileri daha iyi işleyebilir ve anlayabilir, bu da daha iyi aktarım öğrenimi sağlar.

Bağlam uzunluğu, askerler için bir savaş alanı

Bağlam penceresi uzunluğunun büyük modellerin temel teknolojilerinden biri olduğu söylenebilir.

Artık birçok ekip, temel modelin farklılaştırılmış rekabet gücünü oluşturmak için "uzun metin girişi" ile başlıyor. Parametre sayısı büyük modelin ne kadar karmaşık yapabileceğini belirlerse, bağlam penceresinin uzunluğu büyük modelin ne kadar "belleğe sahip olduğunu" belirler.

Sam Altman bir keresinde 140/280 karakter değil, uçan bir araba istediğimizi düşündüğümüzü, ancak gerçekte 32.000 jeton istediğimizi söylemişti.

Yurtiçinde ve yurtdışında, bağlam penceresini genişletmek için araştırma ve ürünler sonsuz olarak tanımlanabilir.

Bu yılın Mayıs ayında, 32K bağlamına sahip GPT-4, hararetli bir tartışmaya yol açtı.

O zamanlar, bu sürümün kilidini açan netizenler GPT-4 32K'yı dünyanın en iyi ürün yöneticisi olarak övdüler.

Kısa süre sonra, Anthropic girişimi, Claude'un yaklaşık 75.000 kelime olan 100 bin bağlam belirteci uzunluğunu destekleyebildiğini duyurdu.

Başka bir deyişle, ortalama bir insan aynı miktarda içeriği yaklaşık 5 saat içinde okuduktan sonra, sindirmek, ezberlemek ve analiz etmek için daha fazla zaman harcamak zorunda kalır. Claude için 1 dakikadan az sürer.

Açık kaynak topluluğunda Meta, temel modelin bağlam penceresinin 32.768 token'a ulaşmasını sağlayabilen bağlam yeteneklerini etkili bir şekilde genişletebilen bir yöntem de önerdi ve çeşitli sentetik bağlam algılama ve dil modelleme görevlerinde önemli performans iyileştirmeleri elde etti.

Sonuçlar, 70B parametreli modelin çeşitli uzun bağlamlı görevlerde gpt-3.5-turbo-16K'nın ötesinde performans elde ettiğini gösteriyor.

Adres:

Hong Kong, Çin ve MIT ekiplerinden araştırmacılar tarafından önerilen LongLoRA yöntemi, yalnızca iki satır kod ve 8 kartlı bir A100 makinesi ile 7B modelinin metin uzunluğunu 100 bin jetona ve 70B modelinin metin uzunluğunu 32 bin jetona kadar uzatabilir.

Adres:

DeepPavlov, AIRI ve Londra Matematik Bilimleri Enstitüsü'nden araştırmacılar, BERT'nin etkin bağlam uzunluğunu "benzeri görülmemiş 2 milyon jetona" çıkarmak ve yüksek bellek alma doğruluğunu korumak için Tekrarlayan Bellek Transformatörü (RMT) yöntemini kullandılar.

Bununla birlikte, RMT, bellek tüketimini artırmadan neredeyse sonsuz dizi uzunluklarına ölçeklenebilse de, RNN'lerde ve daha uzun çıkarım sürelerinde hala bir bellek bozulması sorunu vardır.

Adres:

Şu anda, LLM'lerin bağlam penceresi uzunluğu esas olarak 4.000-100.000 token aralığındadır ve büyümeye devam etmektedir.

Yapay zeka endüstrisindeki ve akademideki bağlam penceresine ilişkin çok yönlü araştırmalar sayesinde, LLM'ler için önemini göstermektedir.

Ve bu sefer, yerli büyük model, en uzun bağlam penceresinin tarihi vurgu anını başlattı.

Endüstri rekorunu tazeleyen 192K bağlam penceresi, yalnızca Baichuan Intelligence'ın büyük ölçekli model teknolojisinde başka bir atılımı değil, aynı zamanda büyük ölçekli modelin geliştirilmesinde başka bir kilometre taşını temsil ediyor. Bu, kaçınılmaz olarak, ürün tarafı formunun reformuna yeni bir şok turu getirecektir.

Nisan 2023'te kurulan Baichuan Intelligent, Baichuan-7B/13B ve Baichuan2-7B/13B'nin dört açık kaynaklı ve ücretsiz ticari büyük modelini yalnızca 6 ayda art arda piyasaya sürdü ve ayrıca Baichuan-53B ve Baichuan2-53B'nin iki kapalı kaynaklı büyük modelini piyasaya sürdü.

Bu şekilde, temelde Ocak ayının ilk gününde bir LLM'dir.

Şimdi, Baichuan2-192K'nın piyasaya sürülmesiyle, büyük model uzun bağlam penceresi teknolojisi de Çin dönemine tam olarak girecek!

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Show My Alpha Points
14k Popularity
2Crypto Market Rebound
167k Popularity
3SEC Crypto Project
22k Popularity
4CandyDrop Airdrop Event 6.0
101k Popularity
5White House Crypto Report
82k Popularity

sitemap