Dua baris kode untuk mengatasi keterbatasan dialog model bahasa besar! Tim Jia Jiaya Hong Kong China dan MIT merilis teknologi ekstensi teks ultra-panjang

2023-10-11 07:27:27

Sumber gambar: Dihasilkan oleh Unbounded AI

Hilang di tengah jalan, modelnya malas, semakin lama konteksnya, semakin bodoh modelnya ... Jika Anda pernah mengalami produk model bahasa besar, pengguna akan merasakan keterbatasan panjang input teks sampai batas tertentu, seperti ketika Anda ingin mendiskusikan beberapa konten yang sedikit lebih panjang dengan model besar, Anda perlu membagi input, dan poin utama dari input sebelumnya akan segera dilupakan oleh model besar.

Ini adalah cacat dialog model bahasa besar yang khas! Seperti anak-anak yang lahir dengan defisit perhatian, sulit berkonsentrasi untuk menyelesaikan buku baru. Kunci cacat adalah bahwa model tidak memiliki kemampuan pemrosesan teks yang panjang. Itu sekarang telah rusak.

Baru-baru ini, teknologi baru dan model baru yang dirilis oleh tim Jia Jiaya dan MIT diam-diam muncul di daftar panas situs web open source utama: memeluk wajah daftar panas pertama, paperwithcode panas pertama, Github semua proyek python panas kelima, GitHub bintang melebihi 1.000 dalam seminggu, dan posting teknis terkait di Twitter dilihat hampir 180.000...

GitHub Stars telah mencapai 1.3K

Posting teknologi terkait di Twitter menerima hampir 180.000 tampilan

Teknologi, yang disebut LongLoRA, praktis tetapi sangat sederhana: hanya dengan dua baris kode dan mesin A100 8 kartu, panjang teks model 7B dapat diperpanjang hingga 100k token, dan panjang teks model 70B dapat diperpanjang hingga 32k token; Pada saat yang sama, tim peneliti juga merilis LongAlpaca, model bahasa besar dialog teks panjang pertama dengan parameter 70B.

** Model bahasa besar teks panjang 70B pertama di dunia dirilis **

Proposal LongLoRA telah memecahkan cacat dialog model bahasa besar global untuk pertama kalinya, dan sejak itu, puluhan halaman makalah, ratusan halaman laporan, dan buku-buku besar tidak lagi menjadi titik buta model besar.

Dalam hal ini, beberapa profesional dengan bersemangat mengatakan bahwa LongLoRA adalah lampu harapan dalam labirin model bahasa besar! Ini mewakili pemikiran ulang industri dan perhatian terhadap model bahasa besar teks panjang, secara efektif memperluas jendela konteks model bahasa besar, memungkinkan model untuk mempertimbangkan dan memproses urutan teks panjang, dan merupakan penemuan inovatif model bahasa besar.

Selain inovasi teknologi, salah satu kesulitan model bahasa besar dalam menangani masalah teks panjang adalah kurangnya data dialog teks panjang yang tersedia untuk umum.

Untuk tujuan ini, tim peneliti secara khusus mengumpulkan pasangan korpus Q&A teks panjang 9K, termasuk berbagai Q&A pada buku-buku terkenal, makalah, laporan mendalam dan bahkan laporan keuangan.

Tidak cukup menjawab pertanyaan panjang, tim memilih korpus tanya jawab pendek 3K yang dicampur dengan korpus tanya jawab panjang 9K untuk pelatihan, sehingga model teks panjang besar memiliki kemampuan dialog teks pendek sekaligus. Dataset lengkap ini, yang disebut LongAlpaca-12k, saat ini open source.

Berdasarkan dataset LongAlpaca-12k, tim peneliti melatih dan mengevaluasi berbagai ukuran parameter 7B, 13B, 70B, dan model sumber terbuka termasuk LongAlpaca-7B, LongAlpaca-13B dan LongAlpaca-70B.

Membaca novel, mengganti makalah, dan menunjukkan ekonomi adalah raja serba bisa

Tanpa basa-basi lagi, pilih beberapa demo secara membabi buta untuk melihat efek LongAlpaca dari model besar yang menerapkan teknologi LongLoRA yang ditumpangkan pada korpus tanya jawab 12K.

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标) , aplikasi yang lebih luas dan arah masa depan, dengan fokus pada kontribusi dan dampak utama, dan kemungkinan makalah diterima akan ditingkatkan.

Sekarang, biarkan sistem membaca dua makalah baru yang berbeda, dan biarkan LongAlpaca merangkum perbedaan gaya antara konferensi ICLR dan CVPR. LongAlpaca menyimpulkan bahwa makalah CVPR cenderung lebih terstruktur dan eksperimental, dengan fokus pada kepraktisan dan teknis. Gaya esai ICLR, di sisi lain, lebih fleksibel, berfokus pada analisis teoritis utama dan derivasi matematika daripada format standar.

Dapat dilihat bahwa model LongAlpaca yang terlatih dapat dengan mudah menerima makalah akademis bentuk panjang yang baru, dan cukup akurat dalam menjawab pertanyaan yang relevan secara akademis.

Selanjutnya, mari kita lihat interpretasi model LongAlpaca di bidang ekonomi dengan ambang batas membaca dan pemahaman yang tinggi.

Berdasarkan kumpulan ikhtisar IMF tentang prospek ekonomi global dari 2012 hingga 2023, IMF merangkum situasi ekonomi dari tahun ke tahun dan memperkirakan tren ekonomi di masa depan. LongAlpaca memberi tahu kami bahwa situasi ekonomi global pada tahun 2023 tidak pasti, dan pertumbuhan diperkirakan akan melambat dibandingkan dengan tahun 2022; Di tahun-tahun mendatang, ekspansi ekonomi global akan moderat dan lebih rendah dari perkiraan, sementara tantangan besar seperti ketegangan geopolitik dan volatilitas pasar keuangan tetap ada dan perlu ditangani secara hati-hati melalui kerja sama multilateral dan reformasi struktural.

LongAlpaca juga dapat membaca novel baru dan menganalisis konten setelah membacanya. Model perbandingan yang dipilih di bawah ini adalah LongAlpaca dan Llama2 dengan parameter 13B, dan lihat kinerjanya masing-masing.

Dalam buku terkenal "Perjalanan ke Barat", mengapa Sun Wukong sangat kuat ketika dia membuat masalah di Istana Surgawi, tetapi dia telah berulang kali frustrasi dalam perjalanan untuk mendapatkan kitab suci? LongAlpaca memberikan 5 alasan, yang secara kasar dapat diringkas sebagai "ketidakdewasaan Raja Kera, lawan yang kuat, kekuatan terbatas, penipuan musuh, kurangnya teman awal dan faktor-faktor lain menyebabkan kegagalannya dalam perjalanan." Namun seiring waktu, ia memperoleh kebijaksanaan, pengalaman, dan kawan-kawan, yang memungkinkannya untuk mengalahkan musuh-musuhnya yang paling tangguh. "

Jawaban Llama2 lebih sederhana. "Sementara dia membuat keributan tentang Istana Surgawi, belum tentu akurat untuk mengatakan bahwa/itu dia mewakili kekuatan yang tak terkalahkan. Faktanya, dia akhirnya dikalahkan oleh Tang Sanzang yang kuat dalam Perjalanan ke Barat. Llama2 tidak memberikan jawaban yang benar dan juga mengangkat kebutuhan akan lebih banyak informasi konten.

Kali ini, biarkan sistem membaca "Masalah Tiga Tubuh" lagi, dan kemudian bertanya mengapa Ye Wenjie menghubungi alien di bagian pertama, dan mengapa dia menyesalinya di tahap selanjutnya? Long Alpaca percaya bahwa kontak awal Ye Wenjie dengan alien dimotivasi oleh idealisme dan balas dendam, tetapi seiring waktu, pandangannya tentang kemanusiaan telah berubah, menyadari bahaya yang mungkin dia bawa ke seluruh umat manusia, dan penyesalannya tumbuh dari hari ke hari. Jawabannya sangat jelas.

Jawaban Llama2 adalah, "Melalui interaksi dengan alien, dia berharap untuk mendapatkan pemahaman yang lebih dalam tentang sifat alam semesta dan tempatnya di dalamnya." Ye Wenjie secara bertahap menyadari bahwa alien dan teknologi mereka tidak dapat menyelesaikan masalahnya. Jawabannya umum, dan kemudian dia mulai mengomentari novel secara keseluruhan, menjawab non-pertanyaan.

Dari jawaban yang diberikan oleh model, dapat dilihat bahwa beberapa model seperti Llama2 [2] Anda mungkin telah melihat novel selama proses pra-pelatihan, tetapi jika Anda mengajukan pertanyaan teks pendek hanya berdasarkan topik novel, jawabannya tidak ideal.

Jawaban dari kedua model tersebut kontras, dan tinggi dan rendahnya tinggi. LongAlpaca adalah tangan yang baik dalam mengubah makalah akademis, mengomentari tren ekonomi global, dan membaca novel, mengalahkan Llama2.

Dua baris kode dan tiga kesimpulan utama

Llama2 bisa dibilang salah satu model open source paling kuat di komunitas AI, memimpin industri, dan LongAlpaca benar-benar bisa menang. Teknologi LongLoRA di baliknya sukses menarik perhatian netizen, bagaimana caranya?

Ternyata dalam proses pemrosesan teks panjang dalam model bahasa besar, biaya utama perhitungan terkonsentrasi pada mekanisme perhatian diri, dan overhead meningkat sesuai dengan panjang teks.

Menanggapi masalah ini, tim peneliti mengusulkan teknologi LongLoRA dan mensimulasikan mekanisme perhatian diri global dengan pengelompokan dan offset.

Sederhananya, ini adalah membagi token yang sesuai dengan teks panjang ke dalam kelompok yang berbeda, melakukan perhitungan perhatian diri dalam setiap kelompok, dan cara pengelompokan diimbangi dari kepala perhatian yang berbeda. Metode ini tidak hanya dapat sangat menghemat jumlah perhitungan, tetapi juga mempertahankan transmisi bidang reseptif global.

Dan metode implementasi ini juga sangat ringkas, hanya dua baris kode yang dapat diselesaikan!

[5]LongLoRA juga mengeksplorasi cara untuk berlatih di peringkat rendah. Metode pelatihan peringkat rendah asli, seperti LoRA , tidak mencapai hasil yang baik pada migrasi panjang teks. Atas dasar pelatihan tingkat rendah, LongLoRA memperkenalkan lapisan embedding (lapisan Embedding dan lapisan Normalisasi) untuk fine-tuning, sehingga mencapai efek fine-tune penuh.

Saat melakukan ekspansi teks dan pelatihan dengan panjang yang berbeda, efek spesifik dari LongLoRA, LoRA, dan teknik penyetelan halus semua parameter dapat dirujuk dalam tiga dimensi:

Dalam hal Perplexity-perplexity, kinerja metode LoRA asli memburuk, sementara LongLoRA dan semua parameter fine-tuning dapat mempertahankan hasil yang baik di bawah berbagai panjang teks.

Dalam hal konsumsi memori, LongLoRA dan LoRA asli memiliki penghematan yang signifikan dibandingkan dengan fine-tuning parameter penuh. Misalnya, untuk pelatihan model dengan panjang 8k, LongLoRA mengurangi konsumsi memori dari 46.3GB menjadi 25.6GB dibandingkan dengan fine-tuning parameter penuh.

Dalam hal waktu pelatihan, untuk pelatihan model panjang 64k, dibandingkan dengan LoRA konvensional, LongLoRA mengurangi waktu pelatihan dari sekitar 90~100 jam menjadi 52,4 jam, sedangkan penyetelan parameter penuh melebihi 1000 jam.

Metode pelatihan minimalis, sumber daya komputasi minimal dan konsumsi waktu, dan akurasi yang sangat baik memungkinkan LongLoRA dalam skala besar. Saat ini, teknologi dan model yang relevan semuanya adalah open source, dan pengguna yang tertarik dapat menggunakan pengalaman mereka sendiri.

Perlu disebutkan bahwa ini adalah mahakarya lain dari tim Jajaya mengikuti model besar multi-modal LISA yang "dapat membagi segalanya" yang dirilis pada 9 Agustus. Dengan hanya berjarak dua bulan, harus dikatakan bahwa kecepatan dan kemampuan penelitian ini sama menakjubkannya dengan LongLoRA.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
2k Popularitas
2Alpha Points System Opens
6k Popularitas
3Ethereum 10th Anniversary
11k Popularitas
4ETF In-Kind Mechanism
4k Popularitas
5ate ETH 10th Anniversary Investment Zone
19k Popularitas

Sematkan

peta situs