Model besar dialog suara domestik ada di sini: Li Kaifu, Zero One, dan All Things Participate, multi-modal bilingual Cina-Inggris, sumber terbuka dan tersedia secara komersial

2023-09-03 01:34:12

Sumber: Qubit

Model sumber terbuka dialog suara bilingual Cina-Inggris pertama telah hadir!

Dalam beberapa hari terakhir, makalah tentang model skala besar multimodal teks ucapan muncul di arXiv, dan nama 01.ai, sebuah perusahaan model skala besar milik Kai-Fu Lee, muncul di perusahaan yang ditandatangani.

Makalah ini mengusulkan model dialog bilingual Cina-Inggris tersedia secara komersial LLaSM, yang mendukung perekaman dan input teks. Tidak ada masalah dengan "ganda campuran":

Makalah ini percaya bahwa "obrolan suara" adalah cara interaksi yang lebih nyaman dan alami antara AI dan manusia, tidak hanya melalui input teks.

Menggunakan model berukuran besar, beberapa netizen sudah membayangkan adegan "menulis kode sambil berbaring dan berbicara".

Penelitian yang berasal dari LinkSoul.AI, Peking University dan Zero-One Wansi ini kini bersifat open source dan juga bisa dicoba langsung di Huahuanglian.

Mari kita lihat cara kerjanya.

Mendukung input teks dan suara, ponsel juga dapat memutar

Menurut para peneliti, LLaSM adalah model dialog open source dan tersedia secara komersial pertama yang mendukung dialog multi-modal teks pidato bilingual Cina dan Inggris.

Jadi, mari kita lihat input teks suara dan kemampuan bilingual Mandarin-Inggris.

Pertama, mari kita lakukan benturan budaya antara bahasa Mandarin dan Inggris dan biarkan dia mengevaluasi Li Bai dalam bahasa Inggris:

Tidak apa-apa, itu dengan benar menyatakan dinasti Li Bai. Jika Anda tidak mengerti bahasa Inggris, tidak masalah untuk menerjemahkannya langsung ke bahasa Mandarin:

Selanjutnya, coba pertanyaan campuran dalam bahasa Mandarin dan Inggris, tambahkan "makanan goreng" dalam bahasa Mandarin, dan keluaran modelnya juga bagus:

Coba modelnya lagi, biarkan model melakukan evaluasi, dan lihat mana yang lebih kuat, Li Bai atau Du Fu.

Terlihat bahwa model tersebut memberikan penilaian yang sangat netral setelah berpikir sejenak, dan juga memiliki dasar “akal sehat dalam menangani air” dari model besar (kepala anjing manual)

Tentunya tidak hanya komputer saja, ponsel juga bisa bermain.

Mari kita coba mengetik "Sarankan saya resep" dengan suara:

Terlihat modelnya secara akurat mengeluarkan resep "Keju Terong", tapi saya tidak tahu apakah itu enak atau tidak.

Namun saat kami mencobanya, kami juga menemukan bahwa model ini terkadang memiliki bug.

Misalnya, terkadang ia tidak "memahami ucapan manusia" dengan baik.

Minta untuk menampilkan konten campuran berbahasa Mandarin dan Inggris, ia akan berpura-pura tidak mengerti dan menampilkan bahasa Inggris:

Ketika ditanya dalam bahasa campuran Cina dan Inggris apakah dia ingin mendengarkan "Taylor Swift's Red", model tersebut langsung menemukan bug besar dan mengeluarkan kalimat berulang-ulang, bahkan tidak dapat berhenti...

Secara keseluruhan, ketika dihadapkan pada pertanyaan atau permintaan yang bercampur dalam bahasa Mandarin dan Inggris, kemampuan keluaran model masih kurang baik.

Namun secara terpisah, kemampuannya dalam mengekspresikan bahasa Mandarin dan Inggris cukup baik.

Jadi, bagaimana model tersebut diterapkan?

Model baru apa yang Anda buat?

Dilihat dari uji coba, LLaSM memiliki dua fitur utama: Satu mendukung input bahasa Mandarin dan Inggris, dan yang lainnya adalah input ganda suara dan teks.

Untuk mencapai kedua poin tersebut, beberapa penyesuaian perlu dilakukan masing-masing pada arsitektur dan data pelatihan.

Arsitektur, LLaSM mengintegrasikan model pengenalan suara saat ini dan model bahasa besar.

LLaSM terdiri dari tiga bagian, termasuk model pengenalan suara otomatis Whisper, adaptor modal, dan model besar LLaMA.

Diantaranya, Whisper bertanggung jawab untuk menerima masukan ucapan asli dan mengeluarkan representasi vektor fitur ucapan; adaptor modalitas bertanggung jawab untuk menyelaraskan ucapan dan penyematan teks; LLaMA bertanggung jawab untuk memahami instruksi ucapan dan masukan teks serta menghasilkan respons.

Pelatihan model dibagi menjadi dua tahap. Tahap pertama melatih adaptor modal, membekukan encoder dan model besar, yaitu, membiarkannya mempelajari perataan ucapan dan teks; tahap kedua membekukan encoder, melatih adaptor modal dan model besar., untuk mempelajari kemampuan dialog multi-modal.

Pada data pelatihan, para peneliti mengumpulkan kumpulan data LLaSM-Audio-Instructions yang berisi 199.000 dialog dan 508.000 sampel teks ucapan.

Di antara 508.000 sampel teks pidato, terdapat 80.000 sampel pidato bahasa Mandarin dan 428.000 sampel pidato bahasa Inggris.

Para peneliti terutama menggunakan teknologi text-to-speech untuk menghasilkan paket suara untuk kumpulan data ini berdasarkan kumpulan data seperti WizardLM, ShareGPT, dan GPT-4-LLM, sambil menyaring percakapan yang tidak valid.

Saat ini ini merupakan kumpulan data tindak lanjut perintah teks audio berbahasa Mandarin dan Inggris terbesar, tetapi masih disortir.Menurut para peneliti, ini akan menjadi sumber terbuka setelah disortir.

Namun, makalah ini tidak membandingkan keluarannya dengan model ucapan atau model teks lainnya untuk saat ini.

tentang Penulis

Makalah ini berasal dari LinkSoul.AI, Peking University, dan Zero One Thing.

Rekan penulis Yu Shu dan Siwei Dong keduanya berasal dari LinkSoul.AI, dan sebelumnya bekerja di Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing.

LinkSoul.AI adalah perusahaan start-up AI yang sebelumnya telah meluncurkan model bahasa Cina besar Llama 2 open source pertama.

Sebagai perusahaan model besar milik Kai-Fu Lee, Zero One World juga berkontribusi dalam penelitian ini. Halaman Hugging Face penulis Wenhao Huang menunjukkan bahwa dia lulus dari Universitas Fudan.

Alamat kertas:

Situs demo:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1ETH Breaks Through $3,800
16k Popularitas
2Gate June Transparency Report
8k Popularitas
3Altcoins on the Rise
16k Popularitas
4Gate Square Creator Spark Program
158k Popularitas
5Content Mining & Earn Rich Commission
1852k Popularitas

Sematkan

peta situs

Model besar dialog suara domestik ada di sini: Li Kaifu, Zero One, dan All Things Participate, multi-modal bilingual Cina-Inggris, sumber terbuka dan tersedia secara komersial

Mendukung input teks dan suara, ponsel juga dapat memutar

**Model baru apa yang Anda buat? **

tentang Penulis

Model baru apa yang Anda buat?