OpenAI anuncia que ChatGPT em breve “ver, ouvir e falar”

2023-09-26 10:22:32

Novos recursos, incluindo reconhecimento de fala e capacidade de conversão de texto em fala, serão lançados nas próximas duas semanas.

De acordo com anúncio da OpenAI em 25 de setembro, o ChatGPT oferecerá em breve novos recursos que permitirão aos usuários interagir com ele por meio de reconhecimento de imagem e voz.

A OpenAI anunciou que os usuários poderão interagir com o ChatGPT por meio de comandos de voz, permitindo uma experiência de usuário mais personalizada. A empresa afirma que o recurso é alimentado por um modelo de conversão de texto em fala que gera áudio com base em amostras mínimas de fala criadas por dubladores profissionais. A empresa disse que o recurso também é desenvolvido pelo Whisper, seu sistema de reconhecimento de voz de código aberto.

Espera-se que os recursos de voz ofereçam uma gama mais ampla de casos de uso, como auxiliar em tarefas como ler histórias para dormir, criar receitas, escrever discursos, recitar poesia, explicar frases comuns e até mesmo resolver “debates à mesa de jantar”.

OpenAI acrescentou que em breve os usuários poderão fornecer imagens (ou selecionar partes de imagens) ao ChatGPT para interpretação e resposta.

OpenAI reconhece o risco

A OpenAI reconheceu o risco de fraude e falsificação e disse que estava limitando os recursos de voz de sua plataforma de chat de voz de acordo. Ele enfatiza que utiliza dubladores profissionais – em vez da voz do usuário – para produzir o áudio. A OpenAI acrescenta que alguns outros grupos podem usar o recurso de voz para outros fins; por exemplo, o Spotify está traduzindo os podcasts participantes para novos idiomas e usando a voz original de cada apresentador.

A empresa observou que o reconhecimento de imagem apresenta riscos à privacidade e disse que, em resposta, restringiu a capacidade do ChatGPT de fazer declarações sobre as pessoas. Ele observou que o ChatGPT “nem sempre é preciso”, mas disse que uma descrição geral da imagem poderia ser útil, citando seu trabalho inicial com o Be My Eyes, um aplicativo para pessoas cegas e com baixa visão.

A OpenAI disse que apresentará recursos de voz e imagem ao ChatGPT Plus e Enterprise nas próximas duas semanas. A empresa informou que o recurso de voz estará disponível em iOS e Android (opt-in), e o recurso de imagem estará disponível em todas as plataformas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Simple Earn Annual Rate 24.4%
39k Popularidade
2Gate Launchpad List IKA
41k Popularidade
3ETH Trading Volume Surges
42k Popularidade
4Gate ETH 10th Anniversary Celebration
22k Popularidade
5Trump’s AI Strategy
18k Popularidade

Pino