Широкомасштабна модель домашнього голосового діалогу тут: Лі Кайфу бере участь у всьому, двомовна та мультимодальна китайською та англійською, з відкритим кодом і комерційно доступна

Джерело: Qubit

Перша китайсько-англійська двомовна модель голосового діалогу з відкритим кодом тут!

За останні кілька днів на arXiv з’явилася стаття про велику мультимодальну модель мовлення та тексту, а серед компаній-підписів з’явилася назва великої модельної компанії Кай-Фу Лі 01.ai – 01.ai.

У цьому документі пропонується китайсько-англійська двомовна комерційно доступна модель діалогу LLaSM, яка підтримує як запис, так і введення тексту. Немає проблем із «змішаними подвійними»:

Газета вважає, що «голосовий чат» є більш зручним і природним способом взаємодії між ШІ та людьми, а не лише через введення тексту.

Використовуючи великі моделі, деякі користувачі мережі вже уявляють собі сценарій «писати код, лежачи і розмовляючи».

Це дослідження проведено LinkSoul.AI, Пекінським університетом і 011Wang. Тепер воно є відкритим кодом і його також можна спробувати безпосередньо в Huahuanglian.

Давайте подивимося, як це працює.

Підтримка текстового та голосового введення, мобільний телефон також може грати

За словами дослідників, LLaSM є першою моделлю діалогу з відкритим вихідним кодом і комерційно доступною, яка підтримує китайську та англійську двомовну мультимодальний діалог мовлення та текст.

Отже, давайте подивимося на його голосове введення тексту і китайську та англійську двомовні можливості.

Перш за все, давайте розглянемо китайсько-англійську культурну колізію, нехай він прокоментує Лі Бая англійською:

Усе гаразд, там правильно зазначено династію Лі Бая. Якщо ви не розумієте англійську, можна перекласти її безпосередньо китайською:

Далі спробуйте змішане запитання китайською та англійською мовами, додавши «смажену їжу» китайською мовою, і вихід моделі також буде хорошим:

Спробуйте модель ще раз, дайте їй зробити кілька оцінок і подивіться, яка з них потужніша, Лі Бай чи Ду Фу.

Можна побачити, що модель дала дуже нейтральну оцінку після деякого роздуму, а також має базовий «здоровий глузд поводження з водою» великої моделі (собача голова з ручним керуванням)

Звичайно, грати можуть не тільки комп'ютери, але і мобільні телефони.

Давайте спробуємо за допомогою голосу ввести «Порекомендуйте мені рецепт»:

Ви бачите, що модель точно видає рецепт «сиру з баклажанів», але я не знаю, смакує він чи ні.

Однак, коли ми спробували це, ми також виявили, що ця модель іноді має помилки.

Наприклад, іноді він не дуже добре «розуміє людську мову».

Коли його попросять вивести змішаний вміст китайською та англійською мовами, він удасть, що не розуміє, і виведе англійською:

І коли китайсько-англійське змішане запитання хотіло почути «Taylor Swift's Red», у моделі виникла велика помилка, вона постійно виводила речення та навіть не могла зупинитися...

Взагалі кажучи, при зустрічі з запитаннями чи вимогами, змішаними китайською та англійською мовами, вихідна здатність моделі все ще недостатня.

Однак, якщо його розділити, його навички китайської та англійської мови залишаються хорошими.

Отже, як реалізується така модель?

**Яку нову модель ви зробили? **

Судячи з пробної гри, LLaSM має дві основні функції: Одна підтримує введення китайською та англійською мовами, а інша — подвійне введення голосу та тексту.

Щоб досягти цих двох моментів, необхідно внести деякі корективи в архітектуру та навчальні дані відповідно.

Архітектура, LLaSM об’єднує поточну модель розпізнавання мовлення та модель великої мови.

LLaSM складається з трьох частин, включаючи модель автоматичного розпізнавання мови Whisper, адаптер модальності та велику модель LLaMA.

Серед них Whisper відповідає за отримання оригінального мовного введення та виведення векторного представлення мовних функцій; модальний адаптер відповідає за вирівнювання вставлення мовлення та тексту; LLaMA відповідає за розуміння інструкцій щодо мовлення та введення тексту та генерування відповідей.

Навчання моделі поділяється на два етапи. На першому етапі навчається адаптер модальності, зависає кодер і велика модель, тобто дозволяє їй вивчати вирівнювання голосу та тексту; на другому етапі зависає кодер, навчається адаптер модальності та велика модель, щоб вивчити можливості мультимодального діалогу.

На основі тренувальних даних дослідники зібрали набір даних LLaSM-Audio-Instructions, що містить 199 000 діалогів і 508 000 зразків мовлення та тексту.

Серед 508 000 зразків мовного тексту є 80 000 зразків китайського мовлення та 428 000 зразків англійського мовлення.

На основі таких наборів даних, як WizardLM, ShareGPT і GPT-4-LLM, дослідники використовують технологію перетворення тексту в мовлення для створення голосових пакетів для цих наборів даних і фільтрування недійсних розмов.

На даний момент це найбільший набір даних для аудіотекстових команд китайською та англійською мовами, але його все ще сортують. За словами дослідників, після сортування він буде відкритим.

Проте на даний момент у статті не порівнюють свої результати з іншими мовними або текстовими моделями.

Про автора

Ця стаття надійшла від LinkSoul.AI, Пекінського університету та Zero One Thing.

Співавтори Юй Шу та Сівей Донг прийшли з LinkSoul.AI і раніше працювали в Пекінському дослідницькому інституті штучного інтелекту Чжіюань.

LinkSoul.AI — це компанія-стартап зі штучним інтелектом, яка раніше запустила першу велику китайську модель Llama 2 з відкритим кодом.

Як велика модельна компанія під керівництвом Кай-Фу Лі, Zero One Wanwu також брала участь у цьому дослідженні. Домашня сторінка Hugging Face автора Wenhao Huang показує, що він закінчив університет Фудань.

Адреса паперу:

Демо-сайт:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити