Широкомасштабная модель внутреннего голосового диалога уже здесь: Ли Кайфу участвует во всех делах, двуязычный и мультимодальный на китайском и английском языках, с открытым исходным кодом и коммерчески доступен.
Первая китайско-английская двуязычная модель голосового диалога с открытым исходным кодом уже здесь!
В последние несколько дней на arXiv появилась статья о крупномасштабной речево-текстовой мультимодальной модели, а среди фирм-подписей появилось название крупной модельной компании Кай-фу Ли 01.ai — 01.ai. .
В этой статье предлагается китайско-английская двуязычная коммерчески доступная модель диалога LLaSM, которая поддерживает как запись, так и ввод текста, и не имеет проблем со «смешанными парами»:
В документе полагают, что «голосовой чат» — это более удобный и естественный способ взаимодействия между ИИ и людьми, а не только посредством ввода текста.
Используя большую модель, некоторые пользователи сети уже представляют себе сцену «написания кода, лежа и разговаривая».
Это исследование проведено LinkSoul.AI, Пекинским университетом и 01Wanwu. Его исходный код открыт, и вы также можете попробовать его непосредственно в Hugging Face.
Давайте посмотрим, как это работает.
Поддерживает текстовый и голосовой ввод, также можно воспроизводить на мобильных телефонах
По мнению исследователей, LLaSM — это первая коммерчески доступная модель диалога с открытым исходным кодом, которая поддерживает двуязычный мультимодальный диалог речи и текста на китайском и английском языках.
Итак, давайте взглянем на его голосовой ввод текста и возможность двуязычного перевода на китайский и английский языки.
Во-первых, давайте проведем культурное столкновение между китайским и английским языками и позволим ему оценить Ли Бая на английском языке:
Ничего страшного, там правильно указано династия Ли Бая. Если вы не понимаете английский, не проблема перевести его напрямую на китайский:
Затем попробуйте задать смешанный китайско-английский вопрос и добавьте «жареную еду» на китайском языке, и результат модели также будет хорошим:
Давайте попробуем модель еще раз и дадим ей возможность провести некоторые оценки, чтобы увидеть, кто из них более мощный: Ли Бай или Ду Фу.
Видно, что после некоторого размышления модель дала очень нейтральную оценку, а также имеет базовый «здравый смысл обращения с водой» большой модели (ручная собачья голова).
Конечно, в нее можно играть не только на компьютерах, но и на мобильных телефонах.
Давайте попробуем набрать «Предложи рецепт» с помощью voice:
Видно, что модель точно выводит рецепт «Сыра из баклажанов», но я не знаю, хороший он или нет.
Однако когда мы попробовали, мы также обнаружили, что в этой модели иногда были ошибки.
Например, иногда он не очень хорошо «понимает человеческую речь».
Попросите вывести смешанный контент на китайском и английском языках, он сделает вид, что не понимает, и выведет английский:
Когда его спросили на смешанном китайском и английском языке, хочет ли он послушать «Taylor Swift's Red», модель сразу же перешла к большой ошибке и выдавала предложение снова и снова, даже не в силах остановиться...
Вообще говоря, при возникновении вопросов или требований, смешанных на китайском и английском языках, производительность модели все еще недостаточно хороша.
Однако, если его отделить, его навыки выражения на китайском и английском языках по-прежнему будут хорошими.
Итак, как реализуется такая модель?
**Какую новую модель вы сделали? **
Судя по пробной версии, LLaSM имеет две основные функции: Одна поддерживает ввод на китайском и английском языках, а другая — двойной ввод голоса и текста.
Для достижения этих двух целей необходимо внести некоторые корректировки в архитектуру и данные обучения соответственно.
Архитектура, LLaSM объединяет текущую модель распознавания речи и модель большого языка.
LLaSM состоит из трех частей, включая модель автоматического распознавания речи Whisper, модальный адаптер и большую модель LLaMA.
Среди них Whisper отвечает за прием оригинального речевого ввода и вывод векторного представления речевых характеристик; модальный адаптер отвечает за согласование вложений речи и текста; LLaMA отвечает за понимание инструкций по вводу речи и текста и генерацию ответов.
Обучение модели разделено на два этапа: первый этап обучает адаптер модальности, замораживает кодировщик и большую модель, то есть позволяет ей научиться выравниванию голоса и текста; второй этап замораживает кодировщик, обучает адаптер модальности и большая модель, чтобы изучить способность мультимодального диалога.
На основе обучающих данных исследователи собрали набор данных LLaSM-Audio-Instructions, содержащий 199 000 диалогов и 508 000 образцов речевого текста.
Среди 508 000 образцов речи и текста есть 80 000 образцов китайской речи и 428 000 образцов английской речи.
На основе таких наборов данных, как WizardLM, ShareGPT и GPT-4-LLM, исследователи используют технологию преобразования текста в речь для генерации голосовых пакетов для этих наборов данных и фильтрации недействительных разговоров.
На данный момент это самый большой набор данных для отслеживания аудиотекстовых команд на китайском и английском языках, но он все еще сортируется и, по мнению исследователей, после сортировки его исходный код будет открыт.
Однако в статье еще не сравниваются выходные эффекты с другими речевыми или текстовыми моделями.
об авторе
Эта статья опубликована LinkSoul.AI, Пекинским университетом и 01Wanwu.
Соавторы Ю Шу и Сивэй Донг оба работают в LinkSoul.AI и ранее работали в Пекинском научно-исследовательском институте искусственного интеллекта Чжиюань.
LinkSoul.AI — это стартап в области искусственного интеллекта, который ранее запустил первую большую китайскоязычную модель Llama 2 с открытым исходным кодом.
Zero One World, крупная модельная компания, принадлежащая Кай-Фу Ли, также внесла свой вклад в это исследование. На странице «Обнимающее лицо» автора Вэньхао Хуана показано, что он окончил Фуданьский университет.
Бумажный адрес:
Демо-сайт:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Широкомасштабная модель внутреннего голосового диалога уже здесь: Ли Кайфу участвует во всех делах, двуязычный и мультимодальный на китайском и английском языках, с открытым исходным кодом и коммерчески доступен.
Источник: Кубиты
Первая китайско-английская двуязычная модель голосового диалога с открытым исходным кодом уже здесь!
В последние несколько дней на arXiv появилась статья о крупномасштабной речево-текстовой мультимодальной модели, а среди фирм-подписей появилось название крупной модельной компании Кай-фу Ли 01.ai — 01.ai. .
Поддерживает текстовый и голосовой ввод, также можно воспроизводить на мобильных телефонах
По мнению исследователей, LLaSM — это первая коммерчески доступная модель диалога с открытым исходным кодом, которая поддерживает двуязычный мультимодальный диалог речи и текста на китайском и английском языках.
Итак, давайте взглянем на его голосовой ввод текста и возможность двуязычного перевода на китайский и английский языки.
Во-первых, давайте проведем культурное столкновение между китайским и английским языками и позволим ему оценить Ли Бая на английском языке:
Видно, что после некоторого размышления модель дала очень нейтральную оценку, а также имеет базовый «здравый смысл обращения с водой» большой модели (ручная собачья голова).
Давайте попробуем набрать «Предложи рецепт» с помощью voice:
Видно, что модель точно выводит рецепт «Сыра из баклажанов», но я не знаю, хороший он или нет.
Однако когда мы попробовали, мы также обнаружили, что в этой модели иногда были ошибки.
Например, иногда он не очень хорошо «понимает человеческую речь».
Попросите вывести смешанный контент на китайском и английском языках, он сделает вид, что не понимает, и выведет английский:
Однако, если его отделить, его навыки выражения на китайском и английском языках по-прежнему будут хорошими.
Итак, как реализуется такая модель?
**Какую новую модель вы сделали? **
Судя по пробной версии, LLaSM имеет две основные функции: Одна поддерживает ввод на китайском и английском языках, а другая — двойной ввод голоса и текста.
Для достижения этих двух целей необходимо внести некоторые корректировки в архитектуру и данные обучения соответственно.
Архитектура, LLaSM объединяет текущую модель распознавания речи и модель большого языка.
LLaSM состоит из трех частей, включая модель автоматического распознавания речи Whisper, модальный адаптер и большую модель LLaMA.
Среди них Whisper отвечает за прием оригинального речевого ввода и вывод векторного представления речевых характеристик; модальный адаптер отвечает за согласование вложений речи и текста; LLaMA отвечает за понимание инструкций по вводу речи и текста и генерацию ответов.
На основе обучающих данных исследователи собрали набор данных LLaSM-Audio-Instructions, содержащий 199 000 диалогов и 508 000 образцов речевого текста.
Среди 508 000 образцов речи и текста есть 80 000 образцов китайской речи и 428 000 образцов английской речи.
На основе таких наборов данных, как WizardLM, ShareGPT и GPT-4-LLM, исследователи используют технологию преобразования текста в речь для генерации голосовых пакетов для этих наборов данных и фильтрации недействительных разговоров.
Однако в статье еще не сравниваются выходные эффекты с другими речевыми или текстовыми моделями.
об авторе
Эта статья опубликована LinkSoul.AI, Пекинским университетом и 01Wanwu.
Соавторы Ю Шу и Сивэй Донг оба работают в LinkSoul.AI и ранее работали в Пекинском научно-исследовательском институте искусственного интеллекта Чжиюань.
LinkSoul.AI — это стартап в области искусственного интеллекта, который ранее запустил первую большую китайскоязычную модель Llama 2 с открытым исходным кодом.
Демо-сайт: