Baru saja, Baichuan Intelligent Baichuan2-192K dirilis, dengan jendela konteks terpanjang di dunia! Setelah membaca "Masalah Tiga Tubuh" sekaligus, saya memenangkan 7 SOTA

2023-10-30 08:07:35

Sumber artikel: Zhiyuan Baru

Sumber gambar: Dihasilkan oleh Unbounded AI

Jendela konteks terpanjang di dunia ada di sini! Hari ini, Baichuan Intelligent merilis model besar Baichuan2-192K, dengan panjang jendela konteks hingga 192K (350.000 karakter Cina), yang 4,4 kali lipat dari Claude 2 dan 14 kali lipat dari GPT-4!

Tolok ukur baru di bidang jendela konteks panjang, di sini!

Hari ini, Baichuan Intelligent secara resmi merilis model besar dengan jendela konteks terpanjang di dunia - Baichuan2-192K.

Berbeda dengan model sebelumnya, panjang jendela konteks model ini setinggi 192K, yang setara dengan sekitar 350.000 karakter Cina.

Untuk lebih spesifik, Baichuan2-192K dapat memproses karakter Cina 14 kali lebih banyak daripada GPT-4 (konteks 32K, sekitar 25.000 kata) dan Claude 2 (konteks 100K, sekitar 80.000 kata), dan dapat membaca salinan "Masalah Tiga Tubuh" sekaligus.

Catatan jendela konteks yang telah lama disimpan Claude telah diperbarui hari ini

Melemparkan bagian pertama dari Masalah Tiga Tubuh "Once Upon a Time on Earth" ke sana, Baichuan2-192K mengunyah sedikit, dan segera mengetahui keseluruhan cerita dengan baik.

Berapa nomor pada foto ke-36 dalam hitungan mundur yang dilihat Wang Miao? Jawaban: 1194:16:37. Model kamera apa yang dia gunakan? J: Leica M2. Berapa kali dia dan Dashi minum secara total? Jawaban: Dua kali.

Melihat "Hutan Gelap" kedua, Baichuan2-192K tidak hanya menjawab sekaligus bahwa Organisasi Tiga Tubuh Bumi telah mendirikan dua pangkalan Bank Merah, dan "Tetesan Air" terbuat dari bahan dengan interaksi yang kuat.

Selain itu, bahkan pertanyaan tidak populer yang mungkin tidak dapat dijawab oleh "Masalah Tiga Tubuh dan Sepuluh Sarjana Tingkat", Baichuan2-192K juga fasih dalam menjawab, dan mudah dijawab.

Siapa yang memiliki penampilan paling banyak dari nama mereka? Jawaban: Luo Ji.

Dapat dikatakan bahwa ketika jendela konteks diperluas menjadi 350.000 kata, pengalaman menggunakan model besar tampaknya tiba-tiba membuka dunia baru!

Konteks terpanjang di dunia, memimpin Claude 2 di seluruh papan

Model besar, apa yang akan tersangkut di leher?

Mengambil ChatGPT sebagai contoh, meskipun kemampuannya luar biasa, model "mahakuasa" ini memiliki kendala yang tidak dapat dihindari - hanya mendukung maksimum 32 ribu token (25.000 karakter Cina) dalam konteksnya. Profesi seperti pengacara, analis, dll., Perlu berurusan dengan teks yang memakan waktu lebih lama dari itu sebagian besar waktu.

Jendela konteks yang lebih besar memungkinkan model untuk mendapatkan informasi semantik yang lebih kaya dari input, dan bahkan secara langsung melakukan Tanya Jawab dan pemrosesan informasi berdasarkan pemahaman teks lengkap.

Akibatnya, model tidak hanya dapat menangkap relevansi konteks dengan lebih baik, menghilangkan ambiguitas, tetapi juga menghasilkan konten yang lebih akurat, mengurangi masalah "ilusi", dan meningkatkan kinerja. Selain itu, dengan berkah konteks yang panjang, itu juga dapat dikombinasikan secara mendalam dengan adegan yang lebih vertikal, dan benar-benar berperan dalam pekerjaan, kehidupan, dan pembelajaran orang.

Baru-baru ini, unicorn Silicon Valley Anthropic telah menerima investasi 4 miliar dari Amazon dan 2 miliar investasi dari Google. Keunggulan kedua raksasa ini tentu saja terkait dengan posisi terdepan Claude dalam teknologi kemampuan konteks panjang.

Kali ini, model jendela panjang Baichuan-192K yang dirilis oleh Baichuan Intelligence jauh melebihi Claude 2-100K dalam panjang jendela konteks, dan juga telah mencapai keunggulan komprehensif dalam evaluasi berbagai dimensi seperti kualitas pembuatan teks, pemahaman konteks, dan kemampuan Tanya Jawab.

10 ulasan otoritatif, 7 SOTA

Long adalah daftar yang dirilis oleh University of California, Berkeley dan universitas lain untuk evaluasi model jendela panjang, yang terutama mengukur kemampuan model untuk mengingat dan memahami isi jendela panjang.

Dalam hal pemahaman kontekstual, Baichuan2-192K secara signifikan berada di depan model lain pada daftar evaluasi pemahaman teks jendela panjang otoritatif Long, dan masih dapat mempertahankan kinerja yang sangat kuat setelah panjang jendela lebih dari 100K.

Sebaliknya, efek keseluruhan turun sangat buruk setelah panjang jendela Claude 2 melebihi 80K.

Selain itu, Baichuan2-192K juga berkinerja baik dalam 10 set evaluasi Q&A dan abstrak teks panjang bahasa Mandarin dan Inggris, seperti Dureader, NarrativeQA, LSHT, dan TriviaQA.

Di antara mereka, 7 mencapai SOTA, yang secara signifikan mengungguli model jendela panjang lainnya.

Kebingungan adalah kriteria yang sangat penting dalam hal kualitas pembuatan teks.

Secara sederhana dapat dipahami bahwa ketika dokumen berkualitas tinggi yang sesuai dengan kebiasaan bahasa alami manusia digunakan sebagai set tes, semakin tinggi kemungkinan bahwa model akan menghasilkan versi Cina dari set tes, semakin kecil kebingungan model, dan semakin baik modelnya.

Menurut hasil pengujian "Language Modeling Benchmark Dataset PG-19" yang dirilis oleh DeepMind, tingkat kebingungan Baichuan2-192K sangat baik pada tahap awal, dan kemampuan pemodelan urutan Baichuan2-192K terus meningkat seiring bertambahnya panjang jendela.

### ** Optimalisasi bersama algoritma teknik, peningkatan sinkron kinerja panjang **

Sementara konteks panjang dapat meningkatkan kinerja model, jendela panjang juga berarti lebih banyak daya komputasi dan lebih banyak memori video.

Saat ini, praktik umum di industri adalah menggeser jendela, mengurangi pengambilan sampel, mengecilkan model, dan sebagainya.

Namun, semua pendekatan ini mengorbankan aspek lain dari model ke tingkat yang berbeda-beda.

Untuk mengatasi masalah ini, Baichuan2-192K mencapai keseimbangan antara panjang jendela dan kinerja model melalui optimalisasi algoritma dan rekayasa yang ekstrem, dan mencapai peningkatan panjang jendela dan kinerja model secara simultan.

Pertama-tama, dalam hal algoritma, Baichuan Intelligent mengusulkan skema ekstrapolasi untuk pengkodean posisi dinamis RoPE dan ALiBi, yang dapat melakukan berbagai tingkat interpolasi dinamis Attention-mask untuk pengkodean posisi ALiBi dengan panjang yang berbeda, yang dapat meningkatkan kemampuan pemodelan model untuk mengandalkan urutan panjang sambil memastikan resolusi.

Kedua, dalam hal teknik, berdasarkan kerangka pelatihan terdistribusi yang dikembangkan sendiri, Baichuan Intelligence mengintegrasikan hampir semua teknologi pengoptimalan canggih di pasar, termasuk paralelisme tensor, paralelisme aliran, paralelisme urutan, komputasi ulang, dan Offload, dan telah menciptakan serangkaian skema terdistribusi paralel 4D yang komprehensif, yang secara otomatis dapat menemukan strategi terdistribusi yang paling sesuai dengan situasi beban spesifik model, yang sangat mengurangi pendudukan memori dalam proses pelatihan dan inferensi jendela panjang.

Tes internal dibuka secara resmi, dan pengalaman langsung dirilis

Sekarang, Baichuan2-192K telah secara resmi memulai beta tertutup!

Baichuan2-192K telah terhubung ke aplikasi dan bisnisnya sendiri melalui panggilan API, dan sekarang media keuangan, firma hukum, dan lembaga lain telah mencapai kerja sama dengan Baichuan Intelligence.

Bisa dibayangkan bahwa dengan penerapan kemampuan konteks panjang Baichuan2-192K yang terkemuka di dunia untuk skenario tertentu seperti media, keuangan, dan hukum, tidak diragukan lagi akan memperluas ruang yang lebih luas untuk implementasi model besar.

Melalui API, Baichuan2-192K dapat diintegrasikan secara efektif ke dalam adegan yang lebih vertikal dan sangat terintegrasi dengannya.

Di masa lalu, dokumen dengan konten dalam jumlah besar sering menjadi gunung yang tidak dapat kami lewati dalam pekerjaan dan studi kami.

Dengan Baichuan2-192K, ratusan halaman materi dapat diproses dan dianalisis sekaligus, dan informasi penting dapat diekstraksi dan dianalisis.

Baik itu ringkasan / ulasan dokumen yang panjang, artikel atau laporan yang panjang, atau bantuan pemrograman yang kompleks, Baichuan2-192K akan memberikan dorongan besar.

Bagi manajer investasi, dapat membantu meringkas dan menafsirkan laporan keuangan, menganalisis risiko dan peluang perusahaan.

Untuk pengacara, ini dapat membantu mengidentifikasi risiko dalam berbagai dokumen hukum, meninjau kontrak dan dokumen hukum.

Untuk pengembang, ini dapat membantu membaca ratusan halaman dokumentasi pengembangan dan menjawab pertanyaan teknis.

Sejak itu, mayoritas peneliti ilmiah juga memiliki alat penelitian ilmiah, dan mereka dapat dengan cepat menelusuri sejumlah besar makalah dan merangkum kemajuan mutakhir terbaru.

Selain itu, konteks yang lebih panjang memiliki potensi yang lebih besar.

Aplikasi agen dan multimodal adalah hotspot penelitian perbatasan di industri saat ini. Dengan kemampuan kontekstual yang lebih panjang, model besar dapat memproses dan memahami input multimodal kompleks dengan lebih baik, memungkinkan pembelajaran transfer yang lebih baik.

Panjang konteks, medan pertempuran bagi tentara

Dapat dikatakan bahwa panjang jendela konteks adalah salah satu teknologi inti dari model besar.

Sekarang, banyak tim memulai dengan "input teks panjang" untuk membangun daya saing yang berbeda dari model dasar. Jika jumlah parameter menentukan seberapa kompleks model besar dapat dilakukan, panjang jendela konteks menentukan berapa banyak "memori" yang dimiliki model besar.

Sam Altman pernah berkata bahwa kami pikir kami menginginkan mobil terbang, bukan 140/280 karakter, tetapi kenyataannya kami menginginkan 32.000 token.

Di dalam dan luar negeri, penelitian dan produk untuk memperluas jendela konteks dapat digambarkan sebagai tidak ada habisnya.

Pada bulan Mei tahun ini, GPT-4, yang memiliki konteks 32K, memicu diskusi panas.

Saat itu, netizen yang sempat membuka versi ini memuji GPT-4 32K sebagai product manager terbaik di dunia.

Segera, startup Anthropic mengumumkan bahwa Claude telah mampu mendukung panjang token konteks 100K, yaitu sekitar 75.000 kata.

Dengan kata lain, setelah rata-rata orang membaca jumlah konten yang sama dalam waktu sekitar 5 jam, mereka harus menghabiskan lebih banyak waktu untuk mencerna, menghafal, dan menganalisis. Untuk Claude, dibutuhkan kurang dari 1 menit.

Dalam komunitas open-source, Meta juga telah mengusulkan metode yang dapat secara efektif memperluas kemampuan konteks, yang dapat membuat jendela konteks model dasar mencapai 32.768 token, dan telah mencapai peningkatan kinerja yang signifikan dalam berbagai deteksi konteks sintetis dan tugas pemodelan bahasa.

Hasilnya menunjukkan bahwa model dengan parameter 70B telah mencapai performa melampaui gpt-3.5-turbo-16K dalam berbagai tugas konteks panjang.

Alamat:

Metode LongLoRA yang diusulkan oleh para peneliti dari tim Cina dan MIT Hong Kong dapat memperpanjang panjang teks model 7B menjadi 100k token dan panjang teks model 70B menjadi 32k token dengan hanya dua baris kode dan mesin A100 8 kartu.

Alamat:

Para peneliti dari DeepPavlov, AIRI, dan London Institute of Mathematical Sciences menggunakan metode Recurrent Memory Transformer (RMT) untuk meningkatkan panjang konteks efektif BERT menjadi "2 juta token yang belum pernah terjadi sebelumnya" dan mempertahankan akurasi pengambilan memori yang tinggi.

Namun, sementara RMT dapat menskalakan ke panjang urutan yang hampir tak terbatas tanpa meningkatkan konsumsi memori, masih ada masalah peluruhan memori dalam RNN dan waktu inferensi yang lebih lama.

Alamat:

Saat ini, panjang jendela konteks LLM terutama berada di kisaran 4.000-100.000 token, dan terus bertambah.

Melalui penelitian multi-faceted pada jendela konteks dalam industri AI dan akademisi, ini menunjukkan pentingnya LLM.

Dan kali ini, model besar domestik mengantarkan momen sorotan historis dari jendela konteks terpanjang.

Jendela konteks 192K, yang menyegarkan catatan industri, tidak hanya mewakili terobosan lain dalam teknologi model skala besar Baichuan Intelligence, tetapi juga tonggak sejarah lain dalam pengembangan model skala besar. Ini pasti akan membawa babak baru kejutan pada reformasi bentuk sisi produk.

Didirikan pada April 2023, Baichuan Intelligent telah berturut-turut merilis empat model besar sumber terbuka dan komersial gratis Baichuan-7B/13B dan Baichuan2-7B/13B hanya dalam 6 bulan, serta dua model besar sumber tertutup Baichuan-53B dan Baichuan2-53B.

Dengan cara ini, pada dasarnya adalah LLM pada hari pertama bulan Januari.

Sekarang, dengan dirilisnya Baichuan2-192K, teknologi jendela konteks panjang model besar juga akan sepenuhnya memasuki era Cina!

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Show My Alpha Points
13054 Popularitas
2Crypto Market Rebound
166695 Popularitas
3SEC Crypto Project
21665 Popularitas
4CandyDrop Airdrop Event 6.0
100312 Popularitas
5White House Crypto Report
81656 Popularitas

Sematkan

peta situs

Baru saja, Baichuan Intelligent Baichuan2-192K dirilis, dengan jendela konteks terpanjang di dunia! Setelah membaca "Masalah Tiga Tubuh" sekaligus, saya memenangkan 7 SOTA

** Konteks terpanjang di dunia, memimpin Claude 2 di seluruh papan **

10 ulasan otoritatif, 7 SOTA

Tes internal dibuka secara resmi, dan pengalaman langsung dirilis

Panjang konteks, medan pertempuran bagi tentara

Konteks terpanjang di dunia, memimpin Claude 2 di seluruh papan