Широкомасштабная модель внутреннего голосового диалога уже здесь: Ли Кайфу участвует во всех делах, двуязычный и мультимодальный на китайском и английском языках, с открытым исходным кодом и коммерчески доступен.

Источник: Кубиты

Первая китайско-английская двуязычная модель голосового диалога с открытым исходным кодом уже здесь!

В последние несколько дней на arXiv появилась статья о крупномасштабной речево-текстовой мультимодальной модели, а среди фирм-подписей появилось название крупной модельной компании Кай-фу Ли 01.ai — 01.ai. .

В этой статье предлагается китайско-английская двуязычная коммерчески доступная модель диалога LLaSM, которая поддерживает как запись, так и ввод текста, и не имеет проблем со «смешанными парами»:

В документе полагают, что «голосовой чат» — это более удобный и естественный способ взаимодействия между ИИ и людьми, а не только посредством ввода текста.

Используя большую модель, некоторые пользователи сети уже представляют себе сцену «написания кода, лежа и разговаривая».

Это исследование проведено LinkSoul.AI, Пекинским университетом и 01Wanwu. Его исходный код открыт, и вы также можете попробовать его непосредственно в Hugging Face.

Давайте посмотрим, как это работает.

Поддерживает текстовый и голосовой ввод, также можно воспроизводить на мобильных телефонах

По мнению исследователей, LLaSM — это первая коммерчески доступная модель диалога с открытым исходным кодом, которая поддерживает двуязычный мультимодальный диалог речи и текста на китайском и английском языках.

Итак, давайте взглянем на его голосовой ввод текста и возможность двуязычного перевода на китайский и английский языки.

Во-первых, давайте проведем культурное столкновение между китайским и английским языками и позволим ему оценить Ли Бая на английском языке:

Ничего страшного, там правильно указано династия Ли Бая. Если вы не понимаете английский, не проблема перевести его напрямую на китайский:

Затем попробуйте задать смешанный китайско-английский вопрос и добавьте «жареную еду» на китайском языке, и результат модели также будет хорошим:

Давайте попробуем модель еще раз и дадим ей возможность провести некоторые оценки, чтобы увидеть, кто из них более мощный: Ли Бай или Ду Фу.

Видно, что после некоторого размышления модель дала очень нейтральную оценку, а также имеет базовый «здравый смысл обращения с водой» большой модели (ручная собачья голова).

Конечно, в нее можно играть не только на компьютерах, но и на мобильных телефонах.

Давайте попробуем набрать «Предложи рецепт» с помощью voice:

Видно, что модель точно выводит рецепт «Сыра из баклажанов», но я не знаю, хороший он или нет.

Однако когда мы попробовали, мы также обнаружили, что в этой модели иногда были ошибки.

Например, иногда он не очень хорошо «понимает человеческую речь».

Попросите вывести смешанный контент на китайском и английском языках, он сделает вид, что не понимает, и выведет английский:

Когда его спросили на смешанном китайском и английском языке, хочет ли он послушать «Taylor Swift's Red», модель сразу же перешла к большой ошибке и выдавала предложение снова и снова, даже не в силах остановиться...

Вообще говоря, при возникновении вопросов или требований, смешанных на китайском и английском языках, производительность модели все еще недостаточно хороша.

Однако, если его отделить, его навыки выражения на китайском и английском языках по-прежнему будут хорошими.

Итак, как реализуется такая модель?

**Какую новую модель вы сделали? **

Судя по пробной версии, LLaSM имеет две основные функции: Одна поддерживает ввод на китайском и английском языках, а другая — двойной ввод голоса и текста.

Для достижения этих двух целей необходимо внести некоторые корректировки в архитектуру и данные обучения соответственно.

Архитектура, LLaSM объединяет текущую модель распознавания речи и модель большого языка.

LLaSM состоит из трех частей, включая модель автоматического распознавания речи Whisper, модальный адаптер и большую модель LLaMA.

Среди них Whisper отвечает за прием оригинального речевого ввода и вывод векторного представления речевых характеристик; модальный адаптер отвечает за согласование вложений речи и текста; LLaMA отвечает за понимание инструкций по вводу речи и текста и генерацию ответов.

Обучение модели разделено на два этапа: первый этап обучает адаптер модальности, замораживает кодировщик и большую модель, то есть позволяет ей научиться выравниванию голоса и текста; второй этап замораживает кодировщик, обучает адаптер модальности и большая модель, чтобы изучить способность мультимодального диалога.

На основе обучающих данных исследователи собрали набор данных LLaSM-Audio-Instructions, содержащий 199 000 диалогов и 508 000 образцов речевого текста.

Среди 508 000 образцов речи и текста есть 80 000 образцов китайской речи и 428 000 образцов английской речи.

На основе таких наборов данных, как WizardLM, ShareGPT и GPT-4-LLM, исследователи используют технологию преобразования текста в речь для генерации голосовых пакетов для этих наборов данных и фильтрации недействительных разговоров.

На данный момент это самый большой набор данных для отслеживания аудиотекстовых команд на китайском и английском языках, но он все еще сортируется и, по мнению исследователей, после сортировки его исходный код будет открыт.

Однако в статье еще не сравниваются выходные эффекты с другими речевыми или текстовыми моделями.

об авторе

Эта статья опубликована LinkSoul.AI, Пекинским университетом и 01Wanwu.

Соавторы Ю Шу и Сивэй Донг оба работают в LinkSoul.AI и ранее работали в Пекинском научно-исследовательском институте искусственного интеллекта Чжиюань.

LinkSoul.AI — это стартап в области искусственного интеллекта, который ранее запустил первую большую китайскоязычную модель Llama 2 с открытым исходным кодом.

Zero One World, крупная модельная компания, принадлежащая Кай-Фу Ли, также внесла свой вклад в это исследование. На странице «Обнимающее лицо» автора Вэньхао Хуана показано, что он окончил Фуданьский университет.

Бумажный адрес:

Демо-сайт:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить