Tek seferde 350.000 Çince karakter okuyabilen dünyanın en güçlü uzun metin modeli: Baichuan2-192K yayında

Büyük modellerle kitap okumak hiç bu kadar hızlı olmamıştı.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Yerli büyük ölçekli model start-up'lar, teknolojinin ön saflarında yeni rekorlar yaratıyor.

30 Ekim'de Baichuan Intelligence, büyük dil modeli (LLM) bağlam penceresinin uzunluğunu 192K token'a çıkaran Baichuan2-192K uzun pencereli büyük modelini resmi olarak piyasaya sürdü.

Bu, büyük modelin bir seferde yaklaşık 350.000 Çince karakteri işlemesine eşdeğerdir, bu da GPT-4'ten 14 kat daha uzun (32K belirteç, yaklaşık 25.000 karakter) ve Claude 2.0'dan 4,4 kat daha uzundur (100K belirteç, yaklaşık 80.000 karakter).

Başka bir deyişle, Baichuan2-192K, Üç Cisim Problemi 2'nin bir kopyasını bir oturuşta okuyabilir ve bu da onu dünyadaki en uzun işleme bağlam penceresine sahip en büyük model yapar. Ayrıca, metin oluşturma kalitesi, bağlamsal anlayış ve Soru-Cevap yeteneği gibi birçok boyutta da rakiplerini önemli ölçüde geride bırakıyor.

Bir seferde çok uzun metinleri anlayabilen büyük bir model ne yapabilir? Baichuan Intelligent basit bir gösteri yaptı.

"Üç Cisim Problemi 2: Karanlık Orman"ın tamamının bir PDF dosyasını yükleyin ve Baichuan modeli 300.000 kelimedir. Daha sonra, roman hakkında herhangi bir soru sorarsanız, model kısa ve kesin bir cevap verebilir.

Bazen hayal güçlerini kullanmak için değil, doğru bilgileri çıkarmak için yardım için yapay zekaya başvururuz. Baichuan2-192K ile düzinelerce, hatta yüzlerce sayfalık sözleşme belgesini hızlı bir şekilde deşifre edebilir ve yapay zekanın hızlı bir şekilde kısa bir özet vermesine izin verebiliriz, yuvarlama kuantum hızlı okumadır:

Peki ya aniden yeni bir ödev alırsam ve okumam gereken bir sürü dosya olursa?

Doğrudan paketleyip birlikte yükleyebilirsiniz ve Baichuan modeli beş haber makalesini kolayca tek bir makaleye entegre edebilir.

Büyük modelin anlayabileceği içerik uzadıkça, daha fazla yöne uygulanacaktır. Hepimizin bildiği gibi, uzun metni modelleme yeteneği, birçok senaryonun uygulanması için bir ön koşuldur. Baichuan bu kez sektörde liderliği ele geçirdi.

On binlerce kelimeden yüz binlerce kelimeye, önde gelen girişimler "uzun pencereyi" yakalamak için acele ediyor

Büyük modellerin metin anlama yönünde uygulanmasına dikkat ederseniz, bir fenomen fark edebilirsiniz: başlangıçta, modelin yeteneğini değerlendirmek için kullanılan metinler, genellikle bir düzine ila düzinelerce sayfa arasında değişen bazı finansal raporlar ve teknik raporlar olabilir ve kelime sayısı genellikle on binlerce kelimedir. Ancak daha sonra, test metni yavaş yavaş birkaç saatlik toplantı tutanaklarına veya yüz binlerce kelimelik romanlara dönüştü ve rekabet giderek daha yoğun ve zor hale geldi.

Aynı zamanda, daha uzun bağlamları anlayabildiğini iddia eden büyük model şirketler çekiş kazanıyor. Örneğin, bir süre önce, 100 bin token bağlam penceresi gerçekleştirebileceğini iddia eden Claude'un arkasındaki şirket olan Anthropic, Microsoft ve Google'dan milyarlarca dolarlık finansman aldı ve büyük model silahlanma yarışını yeni bir seviyeye taşıdı.

Bu şirketler neden uzun metinlere meydan okuyor?

Her şeyden önce, uygulama açısından bakıldığında, üretkenliği artırmak için büyük modeller kullanan birçok çalışan, kaçınılmaz olarak avukatlar, analistler, danışmanlar vb. gibi uzun metinlerle uğraşmak zorunda kalır ve bağlam penceresi ne kadar büyükse, bu kişilerin büyük modellerle yapabilecekleri şeyler o kadar geniş olur; İkincisi, teknik açıdan, pencere ne kadar fazla bilgi tutabilirse, model bir sonraki kelimeyi oluştururken o kadar fazla bilgiye başvurabilir, "halüsinasyonların" meydana gelme olasılığı o kadar düşüktür ve bilgi o kadar doğru olacaktır, bu da büyük model teknolojisinin uygulanması için gerekli bir koşuldur. Bu nedenle, şirketler modelin performansını iyileştirmeye çalışırken, bağlam penceresini kimin büyütebileceğini ve böylece daha fazla uygulama senaryosuna koyabileceğini görmek için de rekabet ediyor.

Daha önce gösterilen bazı örneklerden de görebileceğiniz gibi, Baichuan2-192K hem metin oluşturma kalitesinde hem de bağlamsal anlayışta üstündür. Ve bu nitel sonuçlara ek olarak, bunu bazı nicel değerlendirme verilerinde de görebiliriz.

Baichuan2-192K: Dosya ne kadar uzun olursa, avantaj o kadar belirgin olur

Metin oluşturma kalitesinin değerlendirilmesinde çok önemli bir ölçüt "karışıklık" olarak adlandırılır: test seti olarak insan doğal dil alışkanlıklarına uyan yüksek kaliteli belgeler aldığımızda, modelin test setinin Çince versiyonunu oluşturma olasılığı ne kadar yüksekse, modelin karışıklığı o kadar küçük ve model o kadar iyi olur.

Baichuan büyük modelinin şaşkınlığını test etmek için kullanılan test setine PG-19 denir. Bu veri seti DeepMind araştırmacıları tarafından üretildi ve Project Gutenberg kitaplarındaki materyaller kullanılarak yapıldı, bu nedenle PG-19 kitap kalitesinde kaliteye sahip.

Test sonuçları aşağıdaki şekilde gösterilmiştir. Gördüğünüz gibi, ilk aşamada (yatay eksenin solunda, bağlam uzunluğu daha kısa olduğunda), Baichuan2-192K'nın karışıklık seviyesi düşük bir seviyede. Bağlamın uzunluğu arttıkça avantajları daha belirgin hale geliyor ve hatta kafa karışıklığı azalmaya devam ediyor. Bu, Baichuan2-192K'nın uzun bağlamlarda kitap düzeyinde metin oluşturma kalitesini daha iyi koruyabildiğini gösteriyor.

Bağlamsal anlama açısından Baichuan2-192K'nın performansı da çok etkileyici.

Bu yetkinlik, yetkili uzun pencereli metin anlama ölçütü olan Long kullanılarak değerlendirilir. Long, Kaliforniya Üniversitesi, Berkeley ve diğer üniversiteler tarafından uzun pencere modellerinin değerlendirilmesi için yayınlanan, esas olarak modelin uzun pencerelerin içeriğini hatırlama ve anlama yeteneğini ölçen ve model puanı ne kadar yüksekse o kadar iyi olan bir listedir.

Aşağıdaki grafikteki değerlendirme sonuçlarından da görebileceğiniz gibi, Baichuan2-192K, pencere uzunluğu 100K'yı aştıktan sonra bile bağlam uzunluğu arttıkça tutarlı yüksek performansı koruyabildi. Buna karşılık, Claude 2'nin genel performansı, 80K'dan fazla bir pencere uzunluğundan sonra önemli ölçüde düşüyor.

Buna ek olarak, model Dureader, NarrativeQA, TriviaQA, LSHT ve Çince ve İngilizce uzun metin Soru-Cevap ve özetlerden oluşan diğer değerlendirme setleri üzerinde test edilmiştir. Sonuçlar, Baichuan 2-192K'nın da iyi performans gösterdiğini ve çoğu uzun metin değerlendirme görevinde diğer modellerden daha iyi performans gösterdiğini gösteriyor.

Kısacası, işlenen içerik ne kadar uzun olursa, Baichuan'ın büyük modelinin göreceli performansı o kadar iyi olur.

**192K süper uzun bağlam, Baichuan bunu nasıl yaptı? **

Yapay zeka endüstrisinde, bağlam penceresini genişletmenin büyük modellerin performansını etkili bir şekilde iyileştirebileceği konusunda bir fikir birliği vardır, ancak ultra uzun bağlam penceresi, daha yüksek bilgi işlem gücü gereksinimleri ve daha fazla bellek baskısı anlamına gelir.

Bu baskıyı hafifletmek için sektörde modelin küçültülmesi gibi bazı uzlaşma yöntemleri ortaya çıkmıştır; Modelin pencereyi kaydırarak vb. önceki metni aktif olarak terk etmesine izin verin ve yalnızca en son girdi için dikkat mekanizmasını koruyun; Bağlamı veya RAG'yi (Retrieval Enhanced Generation), girdinin yalnızca bir kısmını tutan dikkat mekanizmasını vb. altörnekleyerek.

Bu yöntemler bağlam penceresinin uzunluğunu artırabilse de, hepsi modelin performansına farklı derecelerde zarar verir. Başka bir deyişle, modelin tam metin bilgilerine dayalı karmaşık soruları yanıtlayamaması ve yanıtları birden çok metinde düşünmenin zorluğu gibi bağlam penceresinin uzunluğu karşılığında modelin diğer yönlerinin performansını feda ederler.

Baichuan tarafından bu kez piyasaya sürülen Baichaun2-192K , algoritmaların ve mühendisliğin nihai optimizasyonu yoluyla pencere uzunluğu ve model performansı arasında bir denge sağlıyor ve pencere uzunluğu ile model performansının aynı anda iyileştirilmesini sağlıyor.

Algoritmalar açısından, Baichuan Intelligent, RoPE ve ALiBi'nin dinamik konum kodlaması için, farklı çözünürlüklerde ALiBi_mask'nin farklı derecelerde Dikkat maskesi dinamik enterpolasyonunu gerçekleştirebilen, modelin modelleme yeteneğini geliştirebilen bir ekstrapolasyon şeması önermektedir.

Mühendislik açısından, kendi geliştirdiği dağıtılmış eğitim çerçevesi temelinde, Baichuan Intelligent, kapsamlı bir 4D paralel dağıtılmış çözüm seti oluşturmak için tensör paralelliği, akış paralelliği, dizi paralelliği, yeniden hesaplama ve boşaltma işlevleri vb. dahil olmak üzere piyasadaki tüm gelişmiş optimizasyon teknolojilerini entegre eder. Bu çözüm, belirli yük durumuna göre en uygun dağıtılmış stratejiyi otomatik olarak bulabilir ve bu da uzun pencere çıkarım sürecinde bellek işgalini büyük ölçüde azaltır.

Büyük modellerin savaşında savaşın, hızlı olun

Bu yılın Nisan ayında kurulan Baichuan Intelligence'ın neredeyse sektördeki en hızlı teknoloji yinelemesine sahip büyük ölçekli bir model girişimi olduğu söylenebilir. Kuruluşundan bu yana sadece yarım yıl içinde şirket, Baichuan-7B/13B ve Baichuan2-7B/13B olmak üzere dört açık kaynaklı ve ücretsiz ticari modelin yanı sıra iki kapalı kaynaklı model olan Baichuan-53B ve Baichuan2-53B'yi piyasaya sürdü.

Ortalama olarak, her ay yeni bir büyük model piyasaya sürülür.

Baichuan serisi büyük modeller, denetimli ince ayar ve insan niyet hizalaması ile birlikte niyet anlama, bilgi alma ve pekiştirmeli öğrenme teknolojilerini entegre eder ve bilgi sorusu yanıtlama ve metin oluşturma alanlarında iyi performans gösterir. Bu büyük modeller, yetenekleri nedeniyle sektörde de tercih edilmektedir: büyük açık kaynak topluluklarında Baichuan serisi açık kaynak modellerinin kümülatif indirme sayısı 6 milyonu aştı; Baichuan 2, tüm boyutlarıyla Llama 2'nin önündedir ve Çin'in açık kaynak ekosisteminin gelişimine öncülük etmektedir.

31 Ağustos'ta Baichuan Intelligent, "Üretken Yapay Zeka Hizmetlerinin Yönetimi için Geçici Önlemler"in geçmesine öncülük etti ve bu yıl 8 şirketten oluşan ilk grup arasında kurulan tek büyük ölçekli model şirket oldu. 25 Eylül'de Baichuan Intelligent, Baichuan API arayüzünü açtı, resmi olarak To B alanına girdi ve ticarileştirme sürecini başlattı.

Teknoloji araştırma ve geliştirmeden inişe kadar Baichuan'ın hızının yeterince hızlı olduğu söylenebilir.

Yeni piyasaya sürülen Baichuan2-192K, kapalı beta testini resmi olarak başlattı ve API çağrıları şeklinde çekirdek ortaklara açık olacak. Baichuan, finansal medya ve hukuk firmaları ile işbirliğine ulaştığını ve Baichuan2-192K'nın önde gelen uzun bağlam yeteneklerini medya, finans ve hukuk gibi belirli senaryolara uyguladığını ve yakında kurumsal kullanıcılara API çağrıları ve özelleştirilmiş dağıtım şeklinde sağlanacağını söyledi.

API'ler şeklinde tamamen açıldıktan sonra Baichuan2-192K, çok sayıda dikey senaryo ile derinlemesine entegre edilebilir, insanların işinde, yaşamında ve öğrenmesinde rol oynayabilir ve endüstri kullanıcılarının verimliliği büyük ölçüde artırmasına yardımcı olabilir. Baichuan2-192K, bir seferde yüzlerce sayfa materyali işleyebilir ve analiz edebilir, bu da uzun biçimli belge özetleme, uzun biçimli belge incelemesi, uzun biçimli makale veya rapor yazma ve karmaşık programlama yardımı gibi gerçek dünya senaryoları için çok yardımcı olur.

Daha önce, Baichuan Intelligence'ın kurucusu ve CEO'su Wang Xiaochuan, bu yılın ikinci yarısında Baichuan'ın 100 milyar seviyeli büyük bir model başlatacağını ve gelecek yıl bir C-end süper uygulama dağıtımının olmasının beklendiğini açıklamıştı.

OpenAI ile aramızdaki boşlukla karşı karşıya kalan Wang Xiaochuan, idealler açısından OpenAI ile aramızda gerçekten bir boşluk olduğunu, OpenAI'nin amacının zekanın tavanını keşfetmek olduğunu ve hatta 10 milyon GPU'yu birbirine bağlayan bir teknoloji tasarlamayı umduklarını itiraf etti. Bununla birlikte, uygulama açısından, Amerika Birleşik Devletleri'nden daha hızlı gidiyoruz ve İnternet çağında biriken uygulama ve ekolojik deneyim bizi daha hızlı ve daha ileri götürebilir, bu nedenle Baichuan'ın büyük bir model yapma konseptine "İdealde bir adım daha yavaş, yerde üç daha hızlı adım".

Bu açıdan bakıldığında, Baichuan2-192K bu konseptin bir uzantısıdır ve dünyanın en uzun bağlam penceresi şüphesiz Baichuan akıllı büyük model teknolojisi sürecini hızlandıracaktır.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)