O modelo de diálogo de voz doméstico em grande escala está aqui: Li Kaifu participa de todas as coisas, bilíngue e multimodal em chinês e inglês, de código aberto e disponível comercialmente
O primeiro modelo grande de código aberto de diálogo de voz bilíngue chinês-inglês está aqui!
Nos últimos dias, um artigo sobre um modelo multimodal em grande escala de texto de fala apareceu no arXiv, e o nome de 01.ai, uma empresa de modelos em grande escala sob Kai-Fu Lee, apareceu na empresa assinada.
Este artigo propõe um modelo de diálogo bilíngue chinês-inglês disponível comercialmente LLaSM, que suporta gravação e entrada de texto, e não há problema com "duplos mistos":
O artigo acredita que o "chat de voz" é uma forma mais conveniente e natural de interação entre IA e pessoas, não apenas por meio de entrada de texto.
Usando modelos grandes, alguns internautas já estão imaginando o cenário de “escrever código enquanto está deitado e conversando”.
Esta pesquisa vem de LinkSoul.AI, Universidade de Pequim e 01Wanwu. Seu código-fonte é aberto e você também pode experimentá-lo diretamente no Hugging Face.
Vamos ver como isso funciona.
Suporta entrada de texto e voz, também pode ser reproduzido em telefones celulares
De acordo com os pesquisadores, o LLaSM é o primeiro modelo de diálogo de código aberto e disponível comercialmente que oferece suporte ao diálogo multimodal de fala e texto bilíngue em chinês e inglês.
Então, vamos dar uma olhada em sua entrada de texto por voz e recursos bilíngues em chinês e inglês.
Primeiro, vamos ter uma colisão cultural entre chinês e inglês e deixá-lo avaliar Li Bai em inglês:
Está tudo bem, afirmou corretamente a dinastia de Li Bai. Se você não entende inglês, não há problema em traduzi-lo diretamente para o chinês:
Em seguida, tente uma pergunta mista de chinês e inglês, adicionando "frituras" em chinês, e o resultado do modelo também será bom:
Experimente o modelo novamente, deixe-o fazer algumas avaliações e veja qual é mais poderoso, Li Bai ou Du Fu.
Percebe-se que o modelo deu uma avaliação bastante neutra depois de pensar um pouco, e também possui o “bom senso de manejo de água” básico de modelos grandes (cabeça de cachorro manual)
Claro, pode ser jogado não apenas em computadores, mas também em telefones celulares.
Vamos tentar digitar "Sugira-me uma receita" com voz:
Percebe-se que a modelo produz com precisão uma receita de “Queijo Berinjela”, mas não sei se é boa ou não.
No entanto, quando testamos, também descobrimos que esse modelo às vezes apresentava bugs.
Por exemplo, às vezes não “compreende muito bem a fala humana”.
Peça para produzir conteúdo misto em chinês e inglês, ele fingirá não entender e produzirá em inglês:
E quando a pergunta mista chinês-inglês quis ouvir "Taylor Swift's Red", a modelo teve um grande bug, emitindo uma frase repetidamente, e não conseguia nem parar...
No geral, quando confrontado com perguntas ou solicitações misturadas em chinês e inglês, a capacidade de saída do modelo ainda não é muito boa.
No entanto, se for separado, suas habilidades de expressão em chinês e inglês ainda serão boas.
Então, como esse modelo é implementado?
**Que novo modelo você fez? **
A julgar pelo teste, o LLaSM tem dois recursos principais: Um suporta entrada em chinês e inglês e o outro é entrada dupla de voz e texto.
Para atingir esses dois pontos, alguns ajustes precisam ser feitos na arquitetura e nos dados de treinamento respectivamente.
Arquitetonicamente, o LLaSM integra o modelo atual de reconhecimento de fala e o modelo de linguagem grande.
O LLaSM consiste em três partes, incluindo o modelo de reconhecimento automático de fala Whisper, o adaptador de modalidade e o modelo grande LLaMA.
Entre eles, o Whisper é responsável por receber a entrada de fala original e gerar a representação vetorial dos recursos de fala; o adaptador de modalidade é responsável por alinhar a incorporação de fala e texto; o LLaMA é responsável por compreender as instruções de entrada de fala e texto e gerar respostas.
O treinamento do modelo é dividido em duas etapas: a primeira treina o adaptador modal, congela o codificador e o modelo grande, ou seja, deixa-o aprender o alinhamento da fala e do texto; a segunda etapa congela o codificador, treina o adaptador modal e o modelo grande., para aprender a capacidade de diálogo multimodal.
Nos dados de treinamento, os pesquisadores compilaram um conjunto de dados LLaSM-Áudio-Instruções contendo 199.000 diálogos e 508.000 amostras de texto de fala.
Entre as 508 mil amostras de fala e texto, há 80 mil amostras de fala chinesa e 428 mil amostras de fala em inglês.
Os pesquisadores usam principalmente tecnologia de conversão de texto em fala para gerar pacotes de voz para esses conjuntos de dados com base em conjuntos de dados como WizardLM, ShareGPT e GPT-4-LLM, enquanto filtram conversas inválidas.
Esta também é atualmente a maior instrução de texto de fala em chinês e inglês após o conjunto de dados, mas ainda está sendo classificada. Segundo os pesquisadores, será de código aberto depois de resolvido.
No entanto, o artigo ainda não compara seus efeitos de saída com outros modelos de fala ou modelos de texto.
Sobre o autor
Este artigo vem de LinkSoul.AI, Universidade de Pequim e Zero One Thing.
Os coautores Yu Shu e Siwei Dong são ambos da LinkSoul.AI e trabalharam anteriormente no Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim.
LinkSoul.AI é uma empresa start-up de IA que já lançou o primeiro modelo de código aberto Llama 2 grande em língua chinesa.
Como empresa modelo em grande escala dirigida por Kai-Fu Lee, Zero One Wanwu também contribuiu para esta pesquisa. A página inicial do Hugging Face do autor Wenhao Huang mostra que ele se formou na Universidade Fudan.
Endereço do papel:
Site de demonstração:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O modelo de diálogo de voz doméstico em grande escala está aqui: Li Kaifu participa de todas as coisas, bilíngue e multimodal em chinês e inglês, de código aberto e disponível comercialmente
Fonte: Qubit
O primeiro modelo grande de código aberto de diálogo de voz bilíngue chinês-inglês está aqui!
Nos últimos dias, um artigo sobre um modelo multimodal em grande escala de texto de fala apareceu no arXiv, e o nome de 01.ai, uma empresa de modelos em grande escala sob Kai-Fu Lee, apareceu na empresa assinada.
Suporta entrada de texto e voz, também pode ser reproduzido em telefones celulares
De acordo com os pesquisadores, o LLaSM é o primeiro modelo de diálogo de código aberto e disponível comercialmente que oferece suporte ao diálogo multimodal de fala e texto bilíngue em chinês e inglês.
Então, vamos dar uma olhada em sua entrada de texto por voz e recursos bilíngues em chinês e inglês.
Primeiro, vamos ter uma colisão cultural entre chinês e inglês e deixá-lo avaliar Li Bai em inglês:
Percebe-se que o modelo deu uma avaliação bastante neutra depois de pensar um pouco, e também possui o “bom senso de manejo de água” básico de modelos grandes (cabeça de cachorro manual)
Vamos tentar digitar "Sugira-me uma receita" com voz:
Percebe-se que a modelo produz com precisão uma receita de “Queijo Berinjela”, mas não sei se é boa ou não.
No entanto, quando testamos, também descobrimos que esse modelo às vezes apresentava bugs.
Por exemplo, às vezes não “compreende muito bem a fala humana”.
Peça para produzir conteúdo misto em chinês e inglês, ele fingirá não entender e produzirá em inglês:
No entanto, se for separado, suas habilidades de expressão em chinês e inglês ainda serão boas.
Então, como esse modelo é implementado?
**Que novo modelo você fez? **
A julgar pelo teste, o LLaSM tem dois recursos principais: Um suporta entrada em chinês e inglês e o outro é entrada dupla de voz e texto.
Para atingir esses dois pontos, alguns ajustes precisam ser feitos na arquitetura e nos dados de treinamento respectivamente.
Arquitetonicamente, o LLaSM integra o modelo atual de reconhecimento de fala e o modelo de linguagem grande.
O LLaSM consiste em três partes, incluindo o modelo de reconhecimento automático de fala Whisper, o adaptador de modalidade e o modelo grande LLaMA.
Entre eles, o Whisper é responsável por receber a entrada de fala original e gerar a representação vetorial dos recursos de fala; o adaptador de modalidade é responsável por alinhar a incorporação de fala e texto; o LLaMA é responsável por compreender as instruções de entrada de fala e texto e gerar respostas.
Nos dados de treinamento, os pesquisadores compilaram um conjunto de dados LLaSM-Áudio-Instruções contendo 199.000 diálogos e 508.000 amostras de texto de fala.
Entre as 508 mil amostras de fala e texto, há 80 mil amostras de fala chinesa e 428 mil amostras de fala em inglês.
Os pesquisadores usam principalmente tecnologia de conversão de texto em fala para gerar pacotes de voz para esses conjuntos de dados com base em conjuntos de dados como WizardLM, ShareGPT e GPT-4-LLM, enquanto filtram conversas inválidas.
No entanto, o artigo ainda não compara seus efeitos de saída com outros modelos de fala ou modelos de texto.
Sobre o autor
Este artigo vem de LinkSoul.AI, Universidade de Pequim e Zero One Thing.
Os coautores Yu Shu e Siwei Dong são ambos da LinkSoul.AI e trabalharam anteriormente no Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim.
LinkSoul.AI é uma empresa start-up de IA que já lançou o primeiro modelo de código aberto Llama 2 grande em língua chinesa.
Site de demonstração: