Le modèle de dialogue vocal domestique à grande échelle est là : Li Kaifu participe à tout, bilingue et multimodal en chinois et anglais, open source et disponible dans le commerce
Le premier modèle open source de dialogue vocal bilingue chinois-anglais est là !
Ces derniers jours, un article sur les modèles multimodaux à grande échelle de texte vocal est apparu sur arXiv, et le nom de 01.ai, une société de modèles à grande échelle appartenant à Kai-Fu Lee, est apparu dans la société signée.
Cet article propose un modèle de dialogue LLaSM bilingue chinois-anglais disponible dans le commerce, qui prend en charge à la fois l'enregistrement et la saisie de texte. Il n'y a aucun problème avec les « doubles mixtes » :
Le document estime que le « chat vocal » est un moyen d'interaction plus pratique et plus naturel entre l'IA et les gens, pas seulement par la saisie de texte.
À l'aide de grands modèles, certains internautes imaginent déjà le scénario « écrire du code en étant allongé et en parlant ».
Cette recherche provient de LinkSoul.AI, de l'Université de Pékin et de Zero-One Wansi. Elle est désormais open source et peut également être essayée directement à Huahuanglian.
Voyons voir comment ça fonctionne.
Prend en charge la saisie de texte et de voix, peut également être lu sur les téléphones mobiles
Selon les chercheurs, LLaSM est le premier modèle de dialogue open source et disponible dans le commerce qui prend en charge le dialogue multimodal parole-texte bilingue en chinois et en anglais.
Jetons donc un coup d'œil à ses saisie de texte vocale et ses capacités bilingues chinois et anglais.
Tout d’abord, faisons une collision culturelle sino-anglaise, laissez-le commenter Li Bai en anglais :
C'est bon, cela a correctement indiqué la dynastie de Li Bai. Si vous ne comprenez pas l’anglais, ce n’est pas un problème de le traduire directement en chinois :
Ensuite, essayez une question mixte chinois-anglais et ajoutez un « aliment frit » en chinois, et le résultat du modèle est également bon :
Essayons à nouveau le modèle et laissons-le effectuer quelques évaluations pour voir lequel est le plus puissant, Li Bai ou Du Fu.
On peut voir que le modèle a donné une évaluation très neutre après un certain temps de réflexion, et il possède également le « bon sens de base en matière de gestion de l'eau » des grands modèles (tête de chien manuelle).
Bien entendu, vous pouvez y jouer non seulement sur des ordinateurs, mais également sur des téléphones mobiles.
Essayons de taper « Suggérez-moi une recette » avec voix :
On peut voir que le modèle produit avec précision une recette de "Fromage aubergine", mais je ne sais pas si elle est bonne ou pas.
Cependant, lorsque nous l’avons essayé, nous avons également constaté que ce modèle présentait parfois des bugs.
Par exemple, parfois, il ne « comprend pas très bien le langage humain ».
Lorsqu'on lui demande de produire un contenu mixte chinois et anglais, il fera semblant de ne pas comprendre et produira l'anglais :
Lorsqu'on lui a demandé dans un mélange de chinois et d'anglais s'il voulait écouter "Taylor Swift's Red", le modèle est allé directement à un gros bug et a produit une phrase encore et encore, même incapable de s'arrêter...
Dans l’ensemble, face à des questions ou des demandes mixtes en chinois et en anglais, la capacité de sortie du modèle n’est toujours pas très bonne.
Mais séparément, sa capacité à exprimer à la fois le chinois et l’anglais est plutôt bonne.
Alors, comment un tel modèle est-il mis en œuvre ?
**Quel nouveau modèle avez-vous réalisé ? **
À en juger par le jeu d'essai, LLaSM a deux fonctionnalités principales : L'une prend en charge la saisie en chinois et en anglais, et l'autre est une double saisie de voix et de texte.
Pour atteindre ces deux points, certains ajustements doivent être apportés respectivement à l'architecture et aux données de formation.
Architecturalement, LLaSM intègre le modèle de reconnaissance vocale actuel et le grand modèle de langage.
LLaSM se compose de trois parties, dont le modèle de reconnaissance vocale automatique Whisper, l'adaptateur modal et le grand modèle LLaMA.
Parmi eux, Whisper est responsable de la réception de l'entrée vocale originale et de la sortie d'une représentation vectorielle des caractéristiques vocales ; l'adaptateur modal est responsable de l'alignement des intégrations vocales et textuelles ; LLaMA est responsable de la compréhension des instructions de saisie vocale et textuelle et de la génération de réponses.
La formation du modèle est divisée en deux étapes. La première étape entraîne l'adaptateur de modalité, fige l'encodeur et le grand modèle, c'est-à-dire lui permet d'apprendre l'alignement de la voix et du texte ; la deuxième étape fige l'encodeur, entraîne l'adaptateur de modalité et le grand modèle, pour apprendre la capacité de dialogue multimodal.
Sur les données de formation, les chercheurs ont compilé un ensemble de données LLaSM-Audio-Instructions contenant 199 000 dialogues et 508 000 échantillons de textes vocaux.
Parmi les 508 000 échantillons de textes vocaux, il y a 80 000 échantillons de discours chinois et 428 000 échantillons de discours anglais.
Les chercheurs utilisent principalement la technologie de synthèse vocale pour générer des paquets vocaux pour ces ensembles de données sur la base d'ensembles de données tels que WizardLM, ShareGPT et GPT-4-LLM, tout en filtrant les conversations non valides.
Il s'agit également actuellement du plus grand ensemble de données d'instructions textuelles en chinois et en anglais, mais il est encore en cours de tri. Selon les chercheurs, il sera open source une fois trié.
Cependant, l’article ne compare pas ses résultats avec d’autres modèles de parole ou de texte pour le moment.
A propos de l'auteur
Cet article provient de LinkSoul.AI, de l'Université de Pékin et de Zero One Thing.
Les co-auteurs Yu Shu et Siwei Dong viennent tous deux de LinkSoul.AI et ont déjà travaillé à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin.
LinkSoul.AI est une start-up d'IA qui a déjà lancé le premier modèle open source en langue chinoise Llama 2.
En tant qu'entreprise modèle à grande échelle dirigée par Kai-Fu Lee, Zero One Wanwu a également contribué à cette recherche. La page d'accueil Hugging Face de l'auteur Wenhao Huang montre qu'il est diplômé de l'Université de Fudan.
Adresse papier :
Site de démonstration :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Le modèle de dialogue vocal domestique à grande échelle est là : Li Kaifu participe à tout, bilingue et multimodal en chinois et anglais, open source et disponible dans le commerce
Source : Qubits
Le premier modèle open source de dialogue vocal bilingue chinois-anglais est là !
Ces derniers jours, un article sur les modèles multimodaux à grande échelle de texte vocal est apparu sur arXiv, et le nom de 01.ai, une société de modèles à grande échelle appartenant à Kai-Fu Lee, est apparu dans la société signée.
Prend en charge la saisie de texte et de voix, peut également être lu sur les téléphones mobiles
Selon les chercheurs, LLaSM est le premier modèle de dialogue open source et disponible dans le commerce qui prend en charge le dialogue multimodal parole-texte bilingue en chinois et en anglais.
Jetons donc un coup d'œil à ses saisie de texte vocale et ses capacités bilingues chinois et anglais.
Tout d’abord, faisons une collision culturelle sino-anglaise, laissez-le commenter Li Bai en anglais :
On peut voir que le modèle a donné une évaluation très neutre après un certain temps de réflexion, et il possède également le « bon sens de base en matière de gestion de l'eau » des grands modèles (tête de chien manuelle).
Essayons de taper « Suggérez-moi une recette » avec voix :
On peut voir que le modèle produit avec précision une recette de "Fromage aubergine", mais je ne sais pas si elle est bonne ou pas.
Cependant, lorsque nous l’avons essayé, nous avons également constaté que ce modèle présentait parfois des bugs.
Par exemple, parfois, il ne « comprend pas très bien le langage humain ».
Lorsqu'on lui demande de produire un contenu mixte chinois et anglais, il fera semblant de ne pas comprendre et produira l'anglais :
Mais séparément, sa capacité à exprimer à la fois le chinois et l’anglais est plutôt bonne.
Alors, comment un tel modèle est-il mis en œuvre ?
**Quel nouveau modèle avez-vous réalisé ? **
À en juger par le jeu d'essai, LLaSM a deux fonctionnalités principales : L'une prend en charge la saisie en chinois et en anglais, et l'autre est une double saisie de voix et de texte.
Pour atteindre ces deux points, certains ajustements doivent être apportés respectivement à l'architecture et aux données de formation.
Architecturalement, LLaSM intègre le modèle de reconnaissance vocale actuel et le grand modèle de langage.
LLaSM se compose de trois parties, dont le modèle de reconnaissance vocale automatique Whisper, l'adaptateur modal et le grand modèle LLaMA.
Parmi eux, Whisper est responsable de la réception de l'entrée vocale originale et de la sortie d'une représentation vectorielle des caractéristiques vocales ; l'adaptateur modal est responsable de l'alignement des intégrations vocales et textuelles ; LLaMA est responsable de la compréhension des instructions de saisie vocale et textuelle et de la génération de réponses.
Sur les données de formation, les chercheurs ont compilé un ensemble de données LLaSM-Audio-Instructions contenant 199 000 dialogues et 508 000 échantillons de textes vocaux.
Parmi les 508 000 échantillons de textes vocaux, il y a 80 000 échantillons de discours chinois et 428 000 échantillons de discours anglais.
Les chercheurs utilisent principalement la technologie de synthèse vocale pour générer des paquets vocaux pour ces ensembles de données sur la base d'ensembles de données tels que WizardLM, ShareGPT et GPT-4-LLM, tout en filtrant les conversations non valides.
Cependant, l’article ne compare pas ses résultats avec d’autres modèles de parole ou de texte pour le moment.
A propos de l'auteur
Cet article provient de LinkSoul.AI, de l'Université de Pékin et de Zero One Thing.
Les co-auteurs Yu Shu et Siwei Dong viennent tous deux de LinkSoul.AI et ont déjà travaillé à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin.
LinkSoul.AI est une start-up d'IA qui a déjà lancé le premier modèle open source en langue chinoise Llama 2.
Site de démonstration :