Wang Xiaochuan mengumumkan model besar terbaru, yang diklaim sebagai yang terpanjang di dunia, 14 kali lipat dari GPT-4

Sumber asli: Titanium Media

Penulis: Lin Zhijia

Sumber gambar: Dihasilkan oleh Unbounded AI

Persaingan teknologi model skala besar domestik telah dipercepat, dan setelah peluncuran produk terbaru oleh iFLYTEK Xinghuo dan Zhipu, Baichuan juga mengantarkan pencapaian model skala besar baru.

Titanium Media belajarPada pagi hari tanggal 30 Oktober, perusahaan model besar AI "Baichuan Intelligence" yang didirikan oleh Wang Xiaochuan mengumumkan peluncuran model besar Baichuan2-192K, yang memiliki panjang jendela konteks hingga 192K dan dapat memproses sekitar 350.000 karakter Cina.

Baichuan Intelligence mengatakan bahwa Baichuan2-192K saat ini merupakan jendela konteks terpanjang di dunia, dan juga 4,4 kali lipat dari Claude2, model besar terbaik yang saat ini mendukung jendela konteks panjang (mendukung jendela konteks 100K, diukur sekitar 80.000 kata), dan 14 kali (1400%) GPT-4 (mendukung jendela konteks 32K, diukur sekitar 25.000 kata). **Ini tidak hanya melampaui Claude2 dalam panjang jendela konteks, tetapi juga mengarahkan Claude2 dalam kualitas pembuatan teks jendela panjang, pemahaman konteks panjang, dan Tanya Jawab teks panjang, peringkasan, dll.

Dilaporkan bahwa Baichuan2-192K akan diberikan kepada pengguna perusahaan dalam bentuk panggilan API dan penyebaran yang diprivatisasi. Saat ini, Baichuan Intelligent telah meluncurkan pengujian internal API dari model besar, dan membukanya untuk mitra inti di industri hukum, media, keuangan, dan lainnya.

Dilaporkan bahwa Baichuan Intelligence didirikan pada 10 April 2023, oleh Wang Xiaochuan, pendiri dan mantan CEO Sogou. Tim intinya terdiri dari talenta AI top dari perusahaan teknologi terkenal seperti Sogou, Google, Tencent, Baidu, Huawei, Microsoft, dan Byte. Saat ini, ukuran tim Baichuan Intelligent lebih dari 170 orang, di mana hampir 70% adalah karyawan dengan gelar master atau lebih tinggi, dan lebih dari 80% adalah personel R&D.

Dalam 200 hari terakhir, Baichuan Intelligent telah merilis model besar rata-rata setiap 28 hari, dan terus menerus Baichuan-7B / 13B, Baichuan2-7B / 13B empat model besar komersial gratis open source dan Baichuan-53B, Baichuan2-53B dua model besar sumber tertutup, di bidang penulisan, pembuatan teks dan bidang kemampuan lainnya telah mencapai tingkat yang baik di industri. Saat ini, dua model open source Baichuan-7B dan 13B termasuk yang terbaik dalam banyak daftar evaluasi otoritatif, dengan unduhan kumulatif lebih dari 6 juta kali.

Adapun perusahaan yang membangun model AI besar, Wang Xiaochuan mengatakan bahwa alat teknis timnya yang ada dapat digunakan untuk membangun model besar, dan pesaing perusahaan adalah solusi open source dari perusahaan besar. Wang Xiaochuan juga percaya bahwa seluruh tim tidak perlu terlalu besar, dan 100 orang sudah cukup.

Pada tanggal 31 Agustus, Baichuan Intelligent memimpin dalam meloloskan "Tindakan Sementara untuk Manajemen Layanan Kecerdasan Buatan Generatif" nasional sebagai catatan, dan merupakan satu-satunya model start-up skala besar yang didirikan tahun ini di antara delapan perusahaan pertama, dan membuka antarmuka API Baichuan2-53B pada 25 September, secara resmi memasuki bidang perusahaan To B dan memulai proses komersialisasi.

Pada 17 Oktober, Baichuan Intelligent mengumumkan bahwa mereka telah menyelesaikan putaran A1 pembiayaan strategis sebesar 300 juta dolar AS, dan Alibaba, Tencent, Xiaomi dan raksasa teknologi lainnya serta sejumlah lembaga investasi terkemuka berpartisipasi dalam putaran ini. Dengan tambahan angel round sebesar 50 juta dolar AS, jumlah pembiayaan kumulatif Baichuan Intelligent telah mencapai 350 juta dolar AS (sekitar 2,543 miliar yuan).

Baichuan Intelligent tidak mengungkapkan penilaian spesifik saat ini, hanya mengatakan bahwa setelah putaran pembiayaan ini, perusahaan telah menjadi unicorn teknologi. Menurut definisi umum, penilaian unicorn lebih dari 1 miliar dolar AS (sekitar 7,266 miliar yuan).

**Dalam rilis Baichuan2-192K, Baichuan Intelligent mengatakan bahwa kinerjanya baik dalam 10 Q&A teks panjang Cina dan Inggris dan set evaluasi abstrak, seperti Dureader, NarrativeQA, LSHT, dan TriviaQA, dan 7 di antaranya mencapai SOTA, secara signifikan melampaui model jendela panjang lainnya dan memimpin Claude2 secara menyeluruh. **

Baichuan menunjukkan bahwa itu adalah konsensus industri kecerdasan buatan bahwa memperluas jendela konteks dapat secara efektif meningkatkan kinerja model besar, tetapi jendela konteks ultra-panjang berarti kebutuhan daya komputasi yang lebih tinggi dan tekanan memori yang lebih besar. Saat ini, ada banyak cara untuk menambah panjang jendela konteks di industri, termasuk jendela geser, downsampling, model kecil, dll. Meskipun metode ini dapat meningkatkan panjang jendela konteks, mereka semua memiliki berbagai tingkat gangguan terhadap kinerja model, dengan kata lain, mereka semua mengorbankan kinerja aspek lain dari model dengan imbalan jendela konteks yang lebih panjang. Baichuan2-192K yang dirilis kali ini mencapai keseimbangan antara panjang jendela dan kinerja model melalui algoritma dan optimasi teknik, dan mencapai peningkatan panjang jendela dan kinerja model secara simultan.

Dalam hal algoritma, Baichuan Intelligent mengusulkan skema ekstrapolasi untuk pengkodean posisi dinamis RoPE dan ALiBi, yang meningkatkan kemampuan pemodelan model untuk mengandalkan urutan panjang sambil memastikan resolusi, dan ketika panjang jendela mengembang, kemampuan pemodelan urutan Baichuan2-192K terus meningkat. Dalam hal teknik, berdasarkan kerangka pelatihan terdistribusi yang dikembangkan sendiri, Baichuan Intelligent mengintegrasikan dan mengoptimalkan berbagai teknologi dan menciptakan serangkaian solusi terdistribusi paralel 4D yang komprehensif, yang secara otomatis dapat menemukan strategi terdistribusi yang paling sesuai sesuai dengan beban spesifik model, yang sangat mengurangi pendudukan memori dalam proses pelatihan dan inferensi jendela panjang.

Baichuan2-192K dapat diintegrasikan secara mendalam dengan skenario yang lebih vertikal, benar-benar berperan dalam pekerjaan, kehidupan, dan pembelajaran orang, dan membantu pengguna industri mengurangi biaya dengan lebih baik dan meningkatkan efisiensi. Misalnya, dapat membantu manajer investasi meringkas dan menafsirkan laporan keuangan, menganalisis risiko dan peluang perusahaan; Membantu pengacara mengidentifikasi risiko dalam berbagai dokumen hukum, meninjau kontrak dan dokumen hukum; Membantu teknisi membaca ratusan halaman dokumentasi pengembangan dan menjawab pertanyaan teknis; Ini juga dapat membantu staf dengan cepat menelusuri sejumlah besar makalah dan merangkum kemajuan mutakhir terbaru.

Saat ini, Baichuan2-192K terbuka untuk mitra inti Baichuan Intelligence dalam bentuk panggilan API, dan telah mencapai kerja sama dengan media keuangan dan firma hukum, mengatakan bahwa itu akan segera dibuka sepenuhnya.

Tim Wang Xiaochuan mengatakan bahwa Baichuan Intelligent Baichuan2-192K berinovasi untuk jendela konteks panjang dalam algoritma dan rekayasa, memverifikasi kelayakan jendela konteks panjang, dan membuka jalur penelitian ilmiah baru untuk peningkatan kinerja model besar. Pada saat yang sama, konteks yang lebih panjang juga akan meletakkan dasar teknis yang baik bagi industri untuk mengeksplorasi bidang-bidang mutakhir seperti agen dan aplikasi multimodal.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)