Benchmark Sumber Terbuka! Model besar dwibahasa Cina-Inggris terkuat ada di sini, dengan 34 miliar parameter, melampaui semua model open source seperti Llama2-70B

2023-10-13 13:51:44

Penulis:Jin Lei

Sumber: Qubits

Model dwibahasa Cina-Inggris terkuat di dunia open source, Wudao Skyhawk 34B, ada di sini!

Seberapa kuat itu? Singkatnya:

Kemampuan komprehensif Cina dan Inggris, kemampuan penalaran logis, dll., Secara komprehensif melampaui Llama2-70B dan semua model open source sebelumnya!

Dalam hal kemampuan penalaran, tolok ukur evaluasi IRD dari model dialog adalah yang kedua setelah GPT4.

Tidak hanya modelnya yang cukup besar untuk bertarung, tetapi juga mengirimkan satu set lengkap periferal mewah tingkat "tong keluarga" sekaligus.

Apa yang bisa menjadi masalah besar adalah pelopor sekolah open source model besar China, KLCII Research Institute.

Jika Anda melihat pendekatan open source model besar KLCII selama bertahun-tahun, tidak sulit untuk menemukan bahwa itu memimpin tren baru:

Pada awal tahun 2021, korpus terbesar di dunia dipublikasikan, dan pada tahun 2022, itu adalah yang pertama meneruskan sistem sumber terbuka teknologi model besar FlagOpen, dan berturut-turut meluncurkan sistem evaluasi Bendera, himpunan data COIG, model vektor BGE, dan proyek bintang tumpukan teknologi lengkap lainnya.

Keberanian ini berasal dari posisi KLCII sebagai lembaga penelitian non-komersial, nirlaba, netral, dan fokus utamanya adalah "co-creation open source yang tulus".

Dapat dipahami bahwa model alas Aquila2-34B memimpin peringkat komprehensif dari 22 tolok ukur evaluasi, termasuk bahasa, pemahaman, penalaran, kode, ujian, dan dimensi evaluasi lainnya.

Berikut adalah gambar untuk merasakan perasaan ini:

△Gambar: Hasil evaluasi model dasar (lihat repositori open source resmi untuk hasil evaluasi dataset terperinci)

Seperti yang baru saja disebutkan, Beijing KLCII Artificial Intelligence Research Institute juga dengan sangat hati-hati mengimplementasikan open source sampai akhir, membawa open source ke seluruh tong keluarga sekaligus:

Tingkatkan sepenuhnya seri model Aquila2: model dasar Aquila2-34B/7B, model dialog AquilaChat2-34B/7B, model "bahasa teks-SQL" AquilaSQL;

Versi baru dari model vektor semantik BGE ditingkatkan: keempat persyaratan pencarian utama tercakup.

Kerangka kerja pelatihan paralel efisien FlagScale: throughput pelatihan dan pemanfaatan GPU terkemuka di industri;

FlagAttention Subset perhatian berkinerja tinggi: Dukungan inovatif untuk pelatihan teks panjang dan bahasa Triton.

Selanjutnya, mari kita lihat lebih dekat "open source terkuat" kali ini.

Sekilas tentang kemampuan "Strongest Open Source"

Seperti yang baru saja kami sebutkan, Aquila2-34B, salah satu model alas yang dibuka dalam pose "open source terkuat", juga mencakup Aquila2-7B yang lebih kecil.

Dan kedatangan keduanya juga membuat model hilir sangat menguntungkan.

Model dialog open source terkuat

Setelah menyempurnakan instruksi, seri model dialog AquilaChat2 yang sangat baik telah diperoleh:

AquilaChat2-34B: Ini adalah model dialog dwibahasa Cina-Inggris open source terkuat, memimpin dalam evaluasi komprehensif subjektif + objektif;

AquilaChat2-7B: juga mencapai kinerja kinerja keseluruhan terbaik dalam model dialog Cina-Inggris dengan besaran yang sama.

△ Hasil evaluasi model SFT (lihat repositori open source resmi untuk hasil evaluasi dataset terperinci)

Deskripsi Ulasan:

Untuk model dialog generatif, tim KLCII percaya bahwa perlu untuk menilai secara ketat sesuai dengan "jawaban yang dihasilkan secara bebas dari model yang sedang dipertanyakan", yang dekat dengan kasus penggunaan nyata pengguna, jadi lihat Stanford University HELM[1] Pekerjaan dievaluasi, yang memiliki persyaratan yang lebih ketat untuk pembelajaran kontekstual model dan kemampuan mengikuti instruksi. Selama proses evaluasi aktual, beberapa jawaban model dialog tidak memenuhi persyaratan perintah, dan skor "0" dapat terjadi.

Misalnya, jika jawaban yang benar adalah "A" sesuai dengan instruksi, jika model dihasilkan sebagai "B" atau "Jawabannya adalah A", itu akan diberikan skor "0".

Pada saat yang sama, ada metode evaluasi lain di industri, seperti membiarkan model dialog terlebih dahulu menjahit "pertanyaan + jawaban", model menghitung probabilitas setiap teks yang disambung, memverifikasi apakah jawaban dengan probabilitas tertinggi konsisten dengan jawaban yang benar, dan model dialog tidak akan menghasilkan konten apa pun selama proses evaluasi tetapi menghitung probabilitas opsi. Metode evaluasi ini sangat menyimpang dari skenario dialog nyata, sehingga tidak diadopsi dalam evaluasi model dialog generatif.

[1]

Tidak hanya itu, dalam hal kemampuan penalaran, yang sangat penting untuk model bahasa besar, kinerja AquilaChat2-34B juga sangat luar biasa——

Ini peringkat pertama dalam protokol evaluasi IRD, melampaui model seperti Llama2-70B dan GPT3.5, dan kedua setelah GPT4.

△Gambar: Hasil evaluasi model SFT pada dataset IRD

Dari perspektif berbagai pencapaian, apakah itu model alas atau model dialog, seri Aquila2 dapat disebut yang terkuat di industri open source.

Panjang jendela konteks hingga 16K

Untuk model bahasa besar, kemampuan untuk menangani input teks yang panjang dan mempertahankan kefasihan kontekstual selama beberapa putaran dialog adalah kunci untuk menentukan apakah pengalaman itu baik atau buruk.

Untuk mengatasi masalah "model besar yang menderita untuk waktu yang lama" ini, Institut Penelitian Kecerdasan Buatan KLCII Beijing membuat SFT pada 200.000 kumpulan data dialog teks panjang berkualitas tinggi, memperluas panjang jendela konteks efektif model menjadi 16K dalam satu gerakan.

Dan bukan hanya peningkatan panjang, efeknya telah dioptimalkan.

Misalnya, dalam efek evaluasi dari empat pertanyaan dan jawaban teks panjang bahasa Cina dan Inggris LongBench, tugas ringkasan teks panjang, sangat jelas——

AquilaChat2-34B-16K berada di tingkat terdepan model teks panjang open source, dekat dengan model teks panjang GPT-3.5.

△Gambar: Evaluasi Tugas Pemahaman Teks Panjang

Selain itu, tim KLCII melakukan analisis visual dari distribusi perhatian beberapa model bahasa yang memproses teks ultra-panjang, dan menemukan bahwa semua model bahasa memiliki hambatan posisi relatif tetap, yang secara signifikan lebih kecil dari panjang jendela konteks.

Untuk tujuan ini, tim KLCII secara inovatif mengusulkan metode NLPE (Non-Linearized Position Embedding), yang meningkatkan kemampuan epitaksi model dengan menyesuaikan pengkodean posisi relatif dan membatasi panjang relatif maksimum berdasarkan metode RoPE.

Eksperimen kelanjutan teks dalam kode, Few-Shot Leaning Cina dan Inggris, e-book dan bidang lainnya menunjukkan bahwa NLPE dapat memperluas model 4K Aquila2-34B menjadi panjang 32K, dan koherensi teks lanjutan jauh lebih baik daripada Dynamic-NTK, interpolasi posisi, dan metode lainnya.

△Gambar: Perbandingan NLPE dan metode epitaksi Dynamic-NTK mainstream pada model Base (semakin rendah nilai ppl, semakin baik)

Tidak hanya itu, instruksi setelah tes kemampuan pada HotpotQA, 2WikiMultihopQA dan dataset lainnya dengan panjang 5K~15K menunjukkan bahwa akurasi AquilaChat2-7B (2K) setelah epitaksi NLPE adalah 17,2%, sedangkan akurasi AquilaChat2-7B ekstensi Dynamic-NTK hanya 0,4%.

△Gambar: Perbandingan NLPE dan metode epitaxial Dynamic-NTK mainstream pada model SFT

Semua jenis skenario aplikasi nyata dapat diadakan

"Hasil" yang baik hanyalah salah satu kriteria untuk menguji model besar, dan yang lebih penting, "penggunaan yang baik adalah kata terakhir".

Ini juga merupakan kemampuan generalisasi model besar, bahkan jika Anda menghadapi masalah yang belum Anda lihat, Anda dapat dengan mudah mengatasinya.

Untuk tujuan ini, tim Wudao Skyhawk memverifikasi kemampuan generalisasi model Aquila2 melalui tiga skenario aplikasi dunia nyata.

** Membangun agen yang kuat di Minecraft **

Minecraft adalah game yang merupakan tempat pengujian yang baik untuk teknologi pengujian AI.

Ini telah menghasilkan dunia kompleks tanpa batas dan sejumlah besar tugas terbuka, menyediakan antarmuka interaksi yang kaya untuk agen.

Berdasarkan hal ini, KLCII dan tim Universitas Peking datang dengan Plan4MC, sebuah metode untuk menyelesaikan multitasking Minecraft secara efisien tanpa data ahli.

Plan4MC dapat melatih keterampilan dasar agen menggunakan pembelajaran penguatan dengan imbalan intrinsik, sehingga agen dapat menggunakan kemampuan penalaran model bahasa besar AquilaChat2 untuk perencanaan tugas.

Misalnya, dalam video di bawah ini, efek agen yang menggunakan AquilaChat2 untuk secara otomatis menyelesaikan beberapa putaran interaksi dialog ditampilkan.

Masukkan "keadaan lingkungan saat ini" dan "tugas yang harus diselesaikan" ke dalam model AquilaChat2, dan AquilaChat2 memberi umpan balik ke karakter "keterampilan apa yang akan digunakan selanjutnya" dan informasi pengambilan keputusan lainnya, dan akhirnya menyelesaikan tugas yang ditetapkan di Minecraft "Potong kayu dan buat meja kerja untuk diletakkan di dekatnya".

** Link database vektor melalui Aquila2 + BGE2 **

Database vektor telah menjadi bantuan dalam lingkaran model besar dalam beberapa tahun terakhir, tetapi mereka masih sedikit meregang dalam hal kemampuan dalam menghadapi masalah kompleks yang membutuhkan pemahaman mendalam.

Untuk tujuan ini, KLCII telah menggabungkan Aqiula2 dengan model vektor semantik open source BGE2 yang dikembangkan sendiri untuk sepenuhnya membuka beberapa tugas pengambilan kompleks yang tidak dapat diselesaikan dengan metode pengambilan berdasarkan pustaka vektor tradisional saja.

Misalnya, dalam contoh di bawah ini, kita dapat dengan jelas melihat bahwa tugas-tugas seperti "mengambil makalah oleh penulis tentang topik tertentu" dan "menghasilkan teks ringkasan untuk beberapa makalah tentang satu topik" dapat menjadi sangat halus.

Model generasi "bahasa teks-SQL" yang optimal

Banyak pengguna memiliki sakit kepala untuk SQL ketika berhadapan dengan tugas-tugas seperti query database.

Bukankah indah jika bisa dioperasikan dalam bahasa sehari-hari yang sering kita gunakan?

Sekarang, cara mudah ini dimungkinkan - AquilaSQL.

Dalam skenario aplikasi praktis, pengguna juga dapat melakukan pengembangan sekunder berdasarkan AquilaSQL, mencangkokkannya ke dalam basis pengetahuan lokal, menghasilkan SQL kueri lokal, atau lebih meningkatkan kinerja analisis data model, sehingga model tidak hanya dapat mengembalikan hasil kueri, tetapi juga lebih lanjut menghasilkan kesimpulan dan bagan analisis.

Misalnya, ketika berhadapan dengan tugas kueri kompleks berikut, Anda hanya perlu berbicara bahasa alami sekarang:

Filter mobil dengan penjualan lebih besar dari 100 dan warna merah dari dua tabel data yang berisi penjualan mobil (mobil_sales) dan warna mobil (mobil_color).

Dan "prestasi" AquilaSQL juga sangat mengesankan.

Setelah pra-pelatihan berkelanjutan dan pelatihan dua tahap SFT dengan korpus SQL, model SOTA pada Cspider akhirnya melampaui peringkat "model pembuatan bahasa teks-SQL" dengan akurasi 67,3%.

Akurasi model GPT4 tanpa SQL corpus fine-tuning hanya 30,8%.

Ada juga open source tingkat bucket keluarga

Seperti yang kami sebutkan sebelumnya, KLCII selalu berfokus pada open source.

Kali ini, pada kesempatan peningkatan model besar, KLCII juga tanpa syarat membuka serangkaian proyek bintang termasuk algoritma, data, alat, dan evaluasi.

Dapat dipahami bahwa model seri Aquila2 tidak hanya sepenuhnya mengadopsi perjanjian lisensi komersial, tetapi juga memungkinkan publik untuk menggunakannya secara luas dalam penelitian akademis dan aplikasi komersial.

Selanjutnya, mari kita lihat sekilas bucket keluarga open source ini.

FlagScale, kerangka kerja pelatihan paralel yang efisien

FlagScale adalah kerangka kerja pelatihan paralel efisien yang digunakan oleh Aquila2-34B, yang dapat menyediakan fungsi pelatihan satu atap untuk model bahasa besar.

Tim KLCII berbagi konfigurasi pelatihan, skema optimalisasi, dan hiperparameter model Aquila2 dengan pengembang model besar melalui proyek FlagScale, dan merupakan yang pertama di Tiongkok yang sepenuhnya membuka sumber kode pelatihan dan hiperparameter.

Berdasarkan ekstensi Megatron-LM, FlagScale menawarkan berbagai peningkatan fitur, termasuk pengirisan status pengoptimal terdistribusi, pemosisian data masalah pelatihan yang tepat, dan konversi parameter-ke-Huggingface.

Aquila2 telah diukur untuk mencapai throughput pelatihan dan pemanfaatan GPU terdepan di industri.

△Gambar: Throughput pelatihan FlagScale dan pemanfaatan GPU (lihat akhir artikel untuk sumber data dan rumus estimasi)

Dapat dipahami bahwa di masa depan, FlagScale akan terus menyinkronkan dengan kode terbaru dari proyek hulu Megatron-LM, memperkenalkan fungsi yang lebih disesuaikan, mengintegrasikan pelatihan terdistribusi terbaru dan teknologi inferensi dan model besar arus utama, mendukung perangkat keras AI heterogen, dan berusaha untuk membangun kerangka kerja inferensi pelatihan model besar terdistribusi yang umum, nyaman dan efisien untuk memenuhi tugas pelatihan model dari skala dan kebutuhan yang berbeda.

** FlagAttentionHigh Performance Attention Open Source Subset **

FlagAttention adalah subset komputasi sumber terbuka Attention berkinerja tinggi pertama yang dikembangkan menggunakan bahasa Triton untuk mendukung pelatihan model besar teks panjang, dan memperluas operator Memory Efficient Attention dari seri Flash Attention untuk memenuhi kebutuhan pelatihan model besar.

Saat ini, operator perhatian tersegmentasi - PiecewiseAttention telah diimplementasikan.

PiecewiseAttention terutama memecahkan masalah ekstrapolasi model Transformer dengan pengkodean posisi rotasi (Roformer), dan karakteristiknya dapat diringkas sebagai:

Keserbagunaan: Kesamaan dengan model yang menggunakan perhatian komputasi tersegmentasi dapat dengan mudah bermigrasi ke model bahasa besar di luar Aquila.

Kemudahan penggunaan: FlagAttention didasarkan pada implementasi bahasa Triton dan menyediakan antarmuka PyTorch, membuat proses pembuatan dan pemasangan lebih mudah daripada Flash Attention yang dikembangkan oleh CUDA C.

Ekstensibilitas: Juga berkat bahasa Triton, algoritma FlagAttention itu sendiri memiliki ambang batas rendah untuk modifikasi dan ekstensi, dan pengembang dapat dengan mudah memperluas lebih banyak fitur baru di atas ini.

Di masa depan, proyek FlagAttention akan terus mendukung operator perhatian dengan ekstensi fungsi lain untuk kebutuhan penelitian model besar, lebih mengoptimalkan kinerja operator, dan beradaptasi dengan perangkat keras AI yang lebih heterogen.

BGE2 Model Vektor Semantik Generasi Berikutnya**

Generasi baru model vektor semantik BGE juga akan menjadi open source dengan Aquila2.

Model BGE-LLM Embedder di BGE2 mengintegrasikan empat kemampuan "pengambilan pengetahuan", "pengambilan memori", "pencarian sampel", dan "pengambilan alat".

Untuk pertama kalinya, ia menyadari cakupan komprehensif dari persyaratan pengambilan utama model bahasa besar oleh model vektor semantik tunggal.

Dikombinasikan dengan kasus penggunaan khusus, BGE-LLM Embedder akan secara signifikan meningkatkan kinerja model bahasa besar di bidang-bidang penting seperti menangani tugas-tugas intensif pengetahuan, memori jangka panjang, mengikuti instruksi, dan penggunaan alat.

......

Jadi, apakah Anda bersemangat tentang "open source terkuat" yang menyeluruh?

Satu Hal Lagi

KLCII akan mengadakan lokakarya baru tentang teknologi mutakhir untuk model besar pada 28-29 Oktober, di mana sembilan peneliti utama akan memperkenalkan kemajuan dan implementasi FlagOpen baru-baru ini.

Mitra yang tertarik juga dapat hidup dalam kode.

Alamat open source lengkap model Aquila2:

Alamat repositori sumber terbuka AquilaSQL:

Repositori sumber terbuka FlagAttention:

Alamat sumber terbuka BGE2

kertas:

model: /llm-embedder

Repo:

Rumus estimasi throughput LLAMA2: total token / (total jam GPU * 3600), menurut makalah Llama 2: Open Foundation dan Fine-Tuned Chat Models: 1) 7B memiliki total token 2,0 T, total jam GPU adalah 184320, dan diganti ke dalam rumus memberikan 3014 token / detik / GPU; 2) Total token 34B adalah 2,0 T, total jam GPU adalah 1038336, dan rumus diganti untuk mendapatkan 535 Token / detik / GPU.

— Akhir —

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka

Hadiah
2
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1CandyDrop Airdrop Event 6.0
15555 Popularitas
2White House Crypto Report
32504 Popularitas
3Join Alpha RION Airdrop to Earn $40
7953 Popularitas
4Fed Holds Rates Decision
7025 Popularitas
5July Spark Program TOP 10 Creators Announced
1021 Popularitas

Sematkan

peta situs