O modelo de diálogo de voz doméstico em grande escala está aqui: Li Kaifu participa de todas as coisas, bilíngue e multimodal em chinês e inglês, de código aberto e disponível comercialmente

2023-09-03 01:34:12

Fonte: Qubit

O primeiro modelo grande de código aberto de diálogo de voz bilíngue chinês-inglês está aqui!

Nos últimos dias, um artigo sobre um modelo multimodal em grande escala de texto de fala apareceu no arXiv, e o nome de 01.ai, uma empresa de modelos em grande escala sob Kai-Fu Lee, apareceu na empresa assinada.

Este artigo propõe um modelo de diálogo bilíngue chinês-inglês disponível comercialmente LLaSM, que suporta gravação e entrada de texto, e não há problema com "duplos mistos":

O artigo acredita que o "chat de voz" é uma forma mais conveniente e natural de interação entre IA e pessoas, não apenas por meio de entrada de texto.

Usando modelos grandes, alguns internautas já estão imaginando o cenário de “escrever código enquanto está deitado e conversando”.

Esta pesquisa vem de LinkSoul.AI, Universidade de Pequim e 01Wanwu. Seu código-fonte é aberto e você também pode experimentá-lo diretamente no Hugging Face.

Vamos ver como isso funciona.

Suporta entrada de texto e voz, também pode ser reproduzido em telefones celulares

De acordo com os pesquisadores, o LLaSM é o primeiro modelo de diálogo de código aberto e disponível comercialmente que oferece suporte ao diálogo multimodal de fala e texto bilíngue em chinês e inglês.

Então, vamos dar uma olhada em sua entrada de texto por voz e recursos bilíngues em chinês e inglês.

Primeiro, vamos ter uma colisão cultural entre chinês e inglês e deixá-lo avaliar Li Bai em inglês:

Está tudo bem, afirmou corretamente a dinastia de Li Bai. Se você não entende inglês, não há problema em traduzi-lo diretamente para o chinês:

Em seguida, tente uma pergunta mista de chinês e inglês, adicionando "frituras" em chinês, e o resultado do modelo também será bom:

Experimente o modelo novamente, deixe-o fazer algumas avaliações e veja qual é mais poderoso, Li Bai ou Du Fu.

Percebe-se que o modelo deu uma avaliação bastante neutra depois de pensar um pouco, e também possui o “bom senso de manejo de água” básico de modelos grandes (cabeça de cachorro manual)

Claro, pode ser jogado não apenas em computadores, mas também em telefones celulares.

Vamos tentar digitar "Sugira-me uma receita" com voz:

Percebe-se que a modelo produz com precisão uma receita de “Queijo Berinjela”, mas não sei se é boa ou não.

No entanto, quando testamos, também descobrimos que esse modelo às vezes apresentava bugs.

Por exemplo, às vezes não “compreende muito bem a fala humana”.

Peça para produzir conteúdo misto em chinês e inglês, ele fingirá não entender e produzirá em inglês:

E quando a pergunta mista chinês-inglês quis ouvir "Taylor Swift's Red", a modelo teve um grande bug, emitindo uma frase repetidamente, e não conseguia nem parar...

No geral, quando confrontado com perguntas ou solicitações misturadas em chinês e inglês, a capacidade de saída do modelo ainda não é muito boa.

No entanto, se for separado, suas habilidades de expressão em chinês e inglês ainda serão boas.

Então, como esse modelo é implementado?

Que novo modelo você fez?

A julgar pelo teste, o LLaSM tem dois recursos principais: Um suporta entrada em chinês e inglês e o outro é entrada dupla de voz e texto.

Para atingir esses dois pontos, alguns ajustes precisam ser feitos na arquitetura e nos dados de treinamento respectivamente.

Arquitetonicamente, o LLaSM integra o modelo atual de reconhecimento de fala e o modelo de linguagem grande.

O LLaSM consiste em três partes, incluindo o modelo de reconhecimento automático de fala Whisper, o adaptador de modalidade e o modelo grande LLaMA.

Entre eles, o Whisper é responsável por receber a entrada de fala original e gerar a representação vetorial dos recursos de fala; o adaptador de modalidade é responsável por alinhar a incorporação de fala e texto; o LLaMA é responsável por compreender as instruções de entrada de fala e texto e gerar respostas.

O treinamento do modelo é dividido em duas etapas: a primeira treina o adaptador modal, congela o codificador e o modelo grande, ou seja, deixa-o aprender o alinhamento da fala e do texto; a segunda etapa congela o codificador, treina o adaptador modal e o modelo grande., para aprender a capacidade de diálogo multimodal.

Nos dados de treinamento, os pesquisadores compilaram um conjunto de dados LLaSM-Áudio-Instruções contendo 199.000 diálogos e 508.000 amostras de texto de fala.

Entre as 508 mil amostras de fala e texto, há 80 mil amostras de fala chinesa e 428 mil amostras de fala em inglês.

Os pesquisadores usam principalmente tecnologia de conversão de texto em fala para gerar pacotes de voz para esses conjuntos de dados com base em conjuntos de dados como WizardLM, ShareGPT e GPT-4-LLM, enquanto filtram conversas inválidas.

Esta também é atualmente a maior instrução de texto de fala em chinês e inglês após o conjunto de dados, mas ainda está sendo classificada. Segundo os pesquisadores, será de código aberto depois de resolvido.

No entanto, o artigo ainda não compara seus efeitos de saída com outros modelos de fala ou modelos de texto.

Sobre o autor

Este artigo vem de LinkSoul.AI, Universidade de Pequim e Zero One Thing.

Os coautores Yu Shu e Siwei Dong são ambos da LinkSoul.AI e trabalharam anteriormente no Instituto de Pesquisa de Inteligência Artificial Zhiyuan de Pequim.

LinkSoul.AI é uma empresa start-up de IA que já lançou o primeiro modelo de código aberto Llama 2 grande em língua chinesa.

Como empresa modelo em grande escala dirigida por Kai-Fu Lee, Zero One Wanwu também contribuiu para esta pesquisa. A página inicial do Hugging Face do autor Wenhao Huang mostra que ele se formou na Universidade Fudan.

Endereço do papel:

Site de demonstração:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1ETH Breaks Through $3,800
16k Popularidade
2Gate June Transparency Report
9k Popularidade
3Altcoins on the Rise
16k Popularidade
4Gate Square Creator Spark Program
158k Popularidade
5Content Mining & Earn Rich Commission
1852k Popularidade

Marcar

sitemap

O modelo de diálogo de voz doméstico em grande escala está aqui: Li Kaifu participa de todas as coisas, bilíngue e multimodal em chinês e inglês, de código aberto e disponível comercialmente

Suporta entrada de texto e voz, também pode ser reproduzido em telefones celulares

**Que novo modelo você fez? **

Sobre o autor

Que novo modelo você fez?