El gran modelo de diálogo de voz nacional ya está aquí: Li Kaifu, Zero One y All Things Participate, multimodal bilingüe chino-inglés, de código abierto y disponible comercialmente.

2023-09-03 01:34:12

Fuente: Qubits

¡El primer modelo grande de código abierto de diálogo de voz bilingüe chino-inglés ya está aquí!

En los últimos días, apareció en arXiv un artículo sobre un gran modelo multimodal de texto de voz, y el nombre de la gran empresa de modelos de Kai-fu Lee, 01.ai - 01.ai, apareció entre las empresas firmantes.

Este artículo propone un modelo de diálogo LLaSM bilingüe chino-inglés disponible comercialmente, que admite tanto la grabación como la entrada de texto. No hay problema con los "dobles mixtos":

El documento cree que el "chat de voz" es una forma más conveniente y natural de interacción entre la IA y las personas, no solo mediante la entrada de texto.

Utilizando modelos grandes, algunos internautas ya están imaginando el escenario de "escribir código mientras estás acostado y hablando".

Esta investigación proviene de LinkSoul.AI, la Universidad de Pekín y 01Wanwu, es de código abierto y también puedes probarla directamente en Hugging Face.

Vamos a ver cómo funciona.

Admite entrada de texto y voz, el teléfono móvil también puede reproducir

Según los investigadores, LLaSM es el primer modelo de diálogo de código abierto y disponible comercialmente que admite el diálogo multimodal bilingüe de voz y texto en chino e inglés.

Entonces, echemos un vistazo a su ingreso de texto por voz y su capacidad bilingüe chino-inglés.

Primero, tengamos una colisión cultural entre chino e inglés y dejemos que evalúe a Li Bai en inglés:

Está bien, indicaba correctamente la dinastía de Li Bai. Si no entiendes inglés, puedes traducirlo directamente al chino:

A continuación, pruebe una pregunta mixta chino-inglés y agregue "comida frita" en chino, y el resultado del modelo también es bueno:

Pruebe el modelo nuevamente, déjelo hacer algunas evaluaciones y vea cuál es más poderoso, Li Bai o Du Fu.

Se puede ver que el modelo dio una evaluación muy neutral después de pensarlo un rato, y también tiene el "sentido común de manejo del agua" básico de los modelos grandes (cabeza de perro manual).

Por supuesto, se puede jugar no sólo en ordenadores, sino también en teléfonos móviles.

Intentemos escribir "Sugerirme una receta" con voz:

Puede ver que el modelo genera con precisión una receta de "queso de berenjena", pero no sé si sabe bien o no.

Sin embargo, cuando lo probamos, también descubrimos que este modelo a veces tenía errores.

Por ejemplo, a veces no "entiende muy bien el habla humana".

Cuando se le pide que genere contenido mixto en chino e inglés, simulará no entender y generará inglés:

Y cuando la pregunta mixta chino-inglés quiso escuchar "Taylor Swift's Red", el modelo tuvo directamente un gran error, emitió repetidamente una oración y ni siquiera pudo detenerse ...

En términos generales, cuando se encuentran preguntas o requisitos combinados en chino e inglés, la capacidad de salida del modelo aún no es lo suficientemente buena.

Pero por separado, su capacidad para expresarse tanto en chino como en inglés es bastante buena.

Entonces, ¿cómo se materializa ese modelo?

¿Qué nuevo modelo hiciste?

A juzgar por la prueba, LLaSM tiene dos características principales: Una admite entrada en chino e inglés, y la otra admite entrada dual de voz y texto.

Para lograr estos dos puntos, es necesario realizar algunos ajustes en la arquitectura y los datos de entrenamiento, respectivamente.

Arquitectónicamente, LLaSM integra el modelo actual de reconocimiento de voz y el modelo de lenguaje grande.

LLaSM consta de tres partes, incluido el modelo de reconocimiento automático de voz Whisper, el adaptador modal y el modelo grande LLaMA.

Entre ellos, Whisper es responsable de recibir la entrada de voz original y generar una representación vectorial de las características del habla; el adaptador modal es responsable de alinear las incrustaciones de voz y texto; LLaMA es responsable de comprender las instrucciones de entrada de voz y texto y generar respuestas.

El entrenamiento del modelo se divide en dos etapas: la primera etapa entrena el adaptador modal, congela el codificador y el modelo grande, es decir, le permite aprender la alineación de voz y texto; la segunda etapa congela el codificador, entrena el adaptador modal y el modelo grande. , para aprender la capacidad de diálogo multimodal.

A partir de los datos de entrenamiento, los investigadores compilaron un conjunto de datos LLaSM-Audio-Instructions que contiene 199.000 diálogos y 508.000 muestras de texto de voz.

Entre las 508.000 muestras de textos de voz, hay 80.000 muestras de voz en chino y 428.000 muestras de voz en inglés.

Basándose en conjuntos de datos como WizardLM, ShareGPT y GPT-4-LLM, los investigadores utilizan la tecnología de conversión de texto a voz para generar paquetes de voz para estos conjuntos de datos y filtrar conversaciones no válidas.

Este también es actualmente el mayor conjunto de datos de instrucción de texto hablado en chino e inglés, pero aún se está resolviendo y, según los investigadores, será de código abierto una vez que se resuelva.

Sin embargo, el artículo no compara su producción con otros modelos de voz o de texto por el momento.

Sobre el Autor

Este artículo proviene de LinkSoul.AI, la Universidad de Pekín y Zero One Thing.

Los coautores Yu Shu y Siwei Dong son ambos de LinkSoul.AI y anteriormente trabajaron en el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing.

LinkSoul.AI es una nueva empresa de inteligencia artificial que lanzó anteriormente el primer modelo grande en idioma chino Llama 2 de código abierto.

Como gran empresa modelo propiedad de Kai-Fu Lee, Zero One World también contribuyó a esta investigación. La página Hugging Face del autor Wenhao Huang muestra que se graduó de la Universidad de Fudan.

Dirección del papel:

Sitio de demostración:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1ETH Breaks Through $3,800
16k Popularidad
2Gate June Transparency Report
9k Popularidad
3Altcoins on the Rise
16k Popularidad
4Gate Square Creator Spark Program
158k Popularidad
5Content Mining & Earn Rich Commission
1852k Popularidad

Anclado

El gran modelo de diálogo de voz nacional ya está aquí: Li Kaifu, Zero One y All Things Participate, multimodal bilingüe chino-inglés, de código abierto y disponible comercialmente.

** Admite entrada de texto y voz, el teléfono móvil también puede reproducir **

**¿Qué nuevo modelo hiciste? **

Sobre el Autor

Admite entrada de texto y voz, el teléfono móvil también puede reproducir

¿Qué nuevo modelo hiciste?