Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
Yerli büyük ölçekli model teknolojisinin rekabeti hızlandı ve iFLYTEK Xinghuo ve Zhipu'nun en son ürünlerinin piyasaya sürülmesinden sonra Baichuan, yeni büyük ölçekli model başarılarını da başlattı.
Titanium Media öğrendi30 Ekim sabahı, Wang Xiaochuan tarafından kurulan AI büyük model şirketi "Baichuan Intelligence", 192K'ya kadar bağlam penceresi uzunluğuna sahip olan ve yaklaşık 350.000 Çince karakteri işleyebilen Baichuan2-192K büyük modelinin piyasaya sürüldüğünü duyurdu.
**Baichuan Intelligence, Baichuan2-192K'nın şu anda dünyanın en uzun bağlam penceresi olduğunu ve aynı zamanda şu anda uzun bağlam pencerelerini destekleyen en iyi büyük model olan Claude2'nin 4,4 katı olduğunu söyledi (100 bin bağlam penceresini destekler, yaklaşık 80.000 kelime ölçülür) ve GPT-4'ün 14 katı (%1400) (32K bağlam penceresini destekler, yaklaşık 25.000 kelime ölçülür). **Bu, yalnızca bağlam penceresi uzunluğunda Claude2'yi aşmakla kalmaz, aynı zamanda uzun pencere metni oluşturma, uzun bağlam anlama ve uzun metin Soru-Cevap, özetleme vb. kalitesinde Claude2'ye öncülük eder.
Baichuan2-192K'nın kurumsal kullanıcılara API çağrıları ve özelleştirilmiş dağıtım şeklinde sağlanacağı bildiriliyor. Şu anda Baichuan Intelligent, büyük modelin API dahili testini başlattı ve hukuk, medya, finans ve diğer sektörlerdeki çekirdek ortaklara açtı.
Baichuan Intelligence'ın 10 Nisan 2023'te Sogou'nun kurucusu ve eski CEO'su Wang Xiaochuan tarafından kurulduğu bildirildi. Çekirdek ekibi, Sogou, Google, Tencent, Baidu, Huawei, Microsoft ve Byte gibi tanınmış teknoloji şirketlerinin en iyi yapay zeka yeteneklerinden oluşuyor. Şu anda, Baichuan Intelligent'ın ekip büyüklüğü 170'den fazla kişidir ve bunların yaklaşık% 70'i yüksek lisans derecesine sahip çalışanlardır ve% 80'den fazlası Ar-Ge personelidir.
Son 200 günde, Baichuan Intelligent ortalama her 28 günde bir büyük bir model yayınladı ve sürekli olarak Baichuan-7B/13B, Baichuan2-7B/13B dört açık kaynaklı ücretsiz ticari büyük model ve Baichuan-53B, Baichuan2-53B iki kapalı kaynaklı büyük model, yazma, metin oluşturma ve diğer yetenek alanlarında sektörde iyi bir seviyeye ulaştı. Şu anda, Baichuan-7B ve 13B'nin iki açık kaynaklı modeli, 6 milyondan fazla kümülatif indirme ile birçok yetkili değerlendirme listesinde en iyiler arasındadır.
Büyük yapay zeka modelleri oluşturan şirkete gelince, Wang Xiaochuan, ekibinin mevcut teknik araçlarının büyük modeller oluşturmak için kullanılabileceğini ve şirketin rakiplerinin büyük şirketlerin açık kaynaklı çözümleri olduğunu söyledi. Wang Xiaochuan ayrıca tüm ekibin çok büyük olması gerekmediğine ve 100 kişinin yeterli olduğuna inanıyor.
31 Ağustos'ta Baichuan Intelligent, ulusal "Üretken Yapay Zeka Hizmetlerinin Yönetimi için Geçici Önlemler"in rekor için geçmesine öncülük etti ve bu yıl ilk sekiz şirket arasında kurulan tek büyük ölçekli model start-up oldu ve 25 Eylül'de Baichuan2-53B API arayüzünü açarak resmi olarak To B kurumsal alanına girdi ve ticarileştirme sürecini başlattı.
17 Ekim'de Baichuan Intelligent, 300 milyon ABD doları tutarındaki A1 stratejik finansman turunu tamamladığını duyurdu ve bu tura Alibaba, Tencent, Xiaomi ve diğer teknoloji devleri ve bir dizi üst düzey yatırım kurumu katıldı. 50 milyon ABD doları tutarındaki melek yatırım turunun eklenmesiyle, Baichuan Smarted'ın kümülatif finansman tutarı 350 milyon ABD dolarına (yaklaşık 2.543 milyar yuan) ulaştı.
Baichuan Intelligent, mevcut özel değerlemeyi açıklamadı, yalnızca bu finansman turundan sonra şirketin bir teknoloji tek boynuzlu atı haline geldiğini söyledi. Genel tanıma göre, tek boynuzlu atların değerlemesi 1 milyar ABD dolarından (yaklaşık 7.266 milyar yuan) fazladır.
**Baichuan2-192K'nın piyasaya sürülmesinde Baichuan Intelligent, Dureader, NarrativeQA, LSHT ve TriviaQA gibi 10 Çince ve İngilizce uzun metin Soru-Cevap ve soyut değerlendirme setinde iyi performans gösterdiğini ve bunlardan 7'sinin SOTA'ya ulaştığını, diğer uzun pencere modellerini önemli ölçüde geride bıraktığını ve Claude2'yi çok yönlü bir şekilde yönettiğini söyledi. **
Baichuan, bağlam penceresini genişletmenin büyük modellerin performansını etkili bir şekilde artırabileceğinin yapay zeka endüstrisinin fikir birliği olduğunu, ancak ultra uzun bağlam penceresinin daha yüksek bilgi işlem gücü gereksinimleri ve daha fazla bellek baskısı anlamına geldiğine dikkat çekti. Şu anda, sürgülü pencereler, altörnekleme, küçük modeller vb. dahil olmak üzere sektördeki bağlam penceresinin uzunluğunu artırmanın birçok yolu vardır. Bu yöntemler bağlam penceresinin uzunluğunu artırabilse de, hepsinin modelin performansında farklı derecelerde bozulma vardır, başka bir deyişle, hepsi daha uzun bir bağlam penceresi karşılığında modelin diğer yönlerinin performansını feda eder. Bu kez piyasaya sürülen Baichuan2-192K, algoritma ve mühendislik optimizasyonu yoluyla pencere uzunluğu ve model performansı arasında bir denge sağlıyor ve pencere uzunluğu ile model performansının aynı anda iyileştirilmesini sağlıyor.
Algoritmalar açısından, Baichuan Intelligent, RoPE ve ALiBi dinamik konum kodlaması için, çözünürlüğü sağlarken modelin uzun dizilere dayanma modelleme yeteneğini geliştiren bir ekstrapolasyon şeması önermektedir ve pencere uzunluğu genişlediğinde, Baichuan2-192K'nın dizi modelleme yeteneği artmaya devam etmektedir. Mühendislik açısından, kendi geliştirdiği dağıtılmış eğitim çerçevesi temelinde, Baichuan Intelligent birden fazla teknolojiyi entegre eder ve optimize eder ve modelin belirli yüküne göre en uygun dağıtılmış stratejiyi otomatik olarak bulabilen kapsamlı bir 4D paralel dağıtılmış çözüm seti oluşturur, bu da uzun pencere eğitimi ve çıkarım sürecinde bellek işgalini büyük ölçüde azaltır.
Baichuan2-192K, daha dikey senaryolarla derinlemesine entegre edilebilir, insanların işinde, yaşamında ve öğreniminde gerçekten rol oynayabilir ve endüstri kullanıcılarının maliyetleri daha iyi düşürmesine ve verimliliği artırmasına yardımcı olabilir. Örneğin, fon yöneticilerinin finansal tabloları özetlemesine ve yorumlamasına, şirketin risklerini ve fırsatlarını analiz etmesine yardımcı olabilir; Avukatların birden fazla yasal belgedeki riskleri belirlemesine, sözleşmeleri ve yasal belgeleri incelemesine yardımcı olmak; Teknisyenlerin yüzlerce sayfalık geliştirme belgelerini okumalarına ve teknik soruları yanıtlamalarına yardımcı olun; Ayrıca, personelin çok sayıda makaleye hızlı bir şekilde göz atmasına ve en son gelişmelerden haberdar olmasına yardımcı olabilir.
Şu anda Baichuan2-192K, API çağrıları şeklinde Baichuan Intelligence'ın çekirdek ortaklarına açık ve yakında tamamen açılacağını söyleyerek finansal medya ve hukuk firmalarıyla işbirliğine ulaştı.
Wang Xiaochuan'ın ekibi, Baichuan Intelligent Baichuan2-192K'nın algoritmalar ve mühendislikte uzun bağlam pencereleri için yenilik yaptığını, uzun bağlam pencerelerinin fizibilitesini doğruladığını ve büyük modellerin performans iyileştirmesi için yeni bir bilimsel araştırma yolu açtığını söyledi. Aynı zamanda, daha uzun bağlamı, endüstrinin aracılar ve multimodal uygulamalar gibi en yeni alanları keşfetmesi için iyi bir teknik temel oluşturacaktır.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Wang Xiaochuan, GPT-4'ün 14 katı, dünyanın en uzun modeli olduğu iddia edilen en son büyük modeli duyurdu
Orijinal kaynak: Titanium Media
Yazar: Lin Zhijia
Yerli büyük ölçekli model teknolojisinin rekabeti hızlandı ve iFLYTEK Xinghuo ve Zhipu'nun en son ürünlerinin piyasaya sürülmesinden sonra Baichuan, yeni büyük ölçekli model başarılarını da başlattı.
Titanium Media öğrendi30 Ekim sabahı, Wang Xiaochuan tarafından kurulan AI büyük model şirketi "Baichuan Intelligence", 192K'ya kadar bağlam penceresi uzunluğuna sahip olan ve yaklaşık 350.000 Çince karakteri işleyebilen Baichuan2-192K büyük modelinin piyasaya sürüldüğünü duyurdu.
**Baichuan Intelligence, Baichuan2-192K'nın şu anda dünyanın en uzun bağlam penceresi olduğunu ve aynı zamanda şu anda uzun bağlam pencerelerini destekleyen en iyi büyük model olan Claude2'nin 4,4 katı olduğunu söyledi (100 bin bağlam penceresini destekler, yaklaşık 80.000 kelime ölçülür) ve GPT-4'ün 14 katı (%1400) (32K bağlam penceresini destekler, yaklaşık 25.000 kelime ölçülür). **Bu, yalnızca bağlam penceresi uzunluğunda Claude2'yi aşmakla kalmaz, aynı zamanda uzun pencere metni oluşturma, uzun bağlam anlama ve uzun metin Soru-Cevap, özetleme vb. kalitesinde Claude2'ye öncülük eder.
Baichuan2-192K'nın kurumsal kullanıcılara API çağrıları ve özelleştirilmiş dağıtım şeklinde sağlanacağı bildiriliyor. Şu anda Baichuan Intelligent, büyük modelin API dahili testini başlattı ve hukuk, medya, finans ve diğer sektörlerdeki çekirdek ortaklara açtı.
Son 200 günde, Baichuan Intelligent ortalama her 28 günde bir büyük bir model yayınladı ve sürekli olarak Baichuan-7B/13B, Baichuan2-7B/13B dört açık kaynaklı ücretsiz ticari büyük model ve Baichuan-53B, Baichuan2-53B iki kapalı kaynaklı büyük model, yazma, metin oluşturma ve diğer yetenek alanlarında sektörde iyi bir seviyeye ulaştı. Şu anda, Baichuan-7B ve 13B'nin iki açık kaynaklı modeli, 6 milyondan fazla kümülatif indirme ile birçok yetkili değerlendirme listesinde en iyiler arasındadır.
Büyük yapay zeka modelleri oluşturan şirkete gelince, Wang Xiaochuan, ekibinin mevcut teknik araçlarının büyük modeller oluşturmak için kullanılabileceğini ve şirketin rakiplerinin büyük şirketlerin açık kaynaklı çözümleri olduğunu söyledi. Wang Xiaochuan ayrıca tüm ekibin çok büyük olması gerekmediğine ve 100 kişinin yeterli olduğuna inanıyor.
31 Ağustos'ta Baichuan Intelligent, ulusal "Üretken Yapay Zeka Hizmetlerinin Yönetimi için Geçici Önlemler"in rekor için geçmesine öncülük etti ve bu yıl ilk sekiz şirket arasında kurulan tek büyük ölçekli model start-up oldu ve 25 Eylül'de Baichuan2-53B API arayüzünü açarak resmi olarak To B kurumsal alanına girdi ve ticarileştirme sürecini başlattı.
17 Ekim'de Baichuan Intelligent, 300 milyon ABD doları tutarındaki A1 stratejik finansman turunu tamamladığını duyurdu ve bu tura Alibaba, Tencent, Xiaomi ve diğer teknoloji devleri ve bir dizi üst düzey yatırım kurumu katıldı. 50 milyon ABD doları tutarındaki melek yatırım turunun eklenmesiyle, Baichuan Smarted'ın kümülatif finansman tutarı 350 milyon ABD dolarına (yaklaşık 2.543 milyar yuan) ulaştı.
Baichuan Intelligent, mevcut özel değerlemeyi açıklamadı, yalnızca bu finansman turundan sonra şirketin bir teknoloji tek boynuzlu atı haline geldiğini söyledi. Genel tanıma göre, tek boynuzlu atların değerlemesi 1 milyar ABD dolarından (yaklaşık 7.266 milyar yuan) fazladır.
**Baichuan2-192K'nın piyasaya sürülmesinde Baichuan Intelligent, Dureader, NarrativeQA, LSHT ve TriviaQA gibi 10 Çince ve İngilizce uzun metin Soru-Cevap ve soyut değerlendirme setinde iyi performans gösterdiğini ve bunlardan 7'sinin SOTA'ya ulaştığını, diğer uzun pencere modellerini önemli ölçüde geride bıraktığını ve Claude2'yi çok yönlü bir şekilde yönettiğini söyledi. **
Algoritmalar açısından, Baichuan Intelligent, RoPE ve ALiBi dinamik konum kodlaması için, çözünürlüğü sağlarken modelin uzun dizilere dayanma modelleme yeteneğini geliştiren bir ekstrapolasyon şeması önermektedir ve pencere uzunluğu genişlediğinde, Baichuan2-192K'nın dizi modelleme yeteneği artmaya devam etmektedir. Mühendislik açısından, kendi geliştirdiği dağıtılmış eğitim çerçevesi temelinde, Baichuan Intelligent birden fazla teknolojiyi entegre eder ve optimize eder ve modelin belirli yüküne göre en uygun dağıtılmış stratejiyi otomatik olarak bulabilen kapsamlı bir 4D paralel dağıtılmış çözüm seti oluşturur, bu da uzun pencere eğitimi ve çıkarım sürecinde bellek işgalini büyük ölçüde azaltır.
Baichuan2-192K, daha dikey senaryolarla derinlemesine entegre edilebilir, insanların işinde, yaşamında ve öğreniminde gerçekten rol oynayabilir ve endüstri kullanıcılarının maliyetleri daha iyi düşürmesine ve verimliliği artırmasına yardımcı olabilir. Örneğin, fon yöneticilerinin finansal tabloları özetlemesine ve yorumlamasına, şirketin risklerini ve fırsatlarını analiz etmesine yardımcı olabilir; Avukatların birden fazla yasal belgedeki riskleri belirlemesine, sözleşmeleri ve yasal belgeleri incelemesine yardımcı olmak; Teknisyenlerin yüzlerce sayfalık geliştirme belgelerini okumalarına ve teknik soruları yanıtlamalarına yardımcı olun; Ayrıca, personelin çok sayıda makaleye hızlı bir şekilde göz atmasına ve en son gelişmelerden haberdar olmasına yardımcı olabilir.
Şu anda Baichuan2-192K, API çağrıları şeklinde Baichuan Intelligence'ın çekirdek ortaklarına açık ve yakında tamamen açılacağını söyleyerek finansal medya ve hukuk firmalarıyla işbirliğine ulaştı.
Wang Xiaochuan'ın ekibi, Baichuan Intelligent Baichuan2-192K'nın algoritmalar ve mühendislikte uzun bağlam pencereleri için yenilik yaptığını, uzun bağlam pencerelerinin fizibilitesini doğruladığını ve büyük modellerin performans iyileştirmesi için yeni bir bilimsel araştırma yolu açtığını söyledi. Aynı zamanda, daha uzun bağlamı, endüstrinin aracılar ve multimodal uygulamalar gibi en yeni alanları keşfetmesi için iyi bir teknik temel oluşturacaktır.