OpenAI anuncia que ChatGPT em breve “ver, ouvir e falar”

Novos recursos, incluindo reconhecimento de fala e capacidade de conversão de texto em fala, serão lançados nas próximas duas semanas.

De acordo com anúncio da OpenAI em 25 de setembro, o ChatGPT oferecerá em breve novos recursos que permitirão aos usuários interagir com ele por meio de reconhecimento de imagem e voz.

A OpenAI anunciou que os usuários poderão interagir com o ChatGPT por meio de comandos de voz, permitindo uma experiência de usuário mais personalizada. A empresa afirma que o recurso é alimentado por um modelo de conversão de texto em fala que gera áudio com base em amostras mínimas de fala criadas por dubladores profissionais. A empresa disse que o recurso também é desenvolvido pelo Whisper, seu sistema de reconhecimento de voz de código aberto.

Espera-se que os recursos de voz ofereçam uma gama mais ampla de casos de uso, como auxiliar em tarefas como ler histórias para dormir, criar receitas, escrever discursos, recitar poesia, explicar frases comuns e até mesmo resolver “debates à mesa de jantar”.

OpenAI acrescentou que em breve os usuários poderão fornecer imagens (ou selecionar partes de imagens) ao ChatGPT para interpretação e resposta.

OpenAI reconhece o risco

A OpenAI reconheceu o risco de fraude e falsificação e disse que estava limitando os recursos de voz de sua plataforma de chat de voz de acordo. Ele enfatiza que utiliza dubladores profissionais – em vez da voz do usuário – para produzir o áudio. A OpenAI acrescenta que alguns outros grupos podem usar o recurso de voz para outros fins; por exemplo, o Spotify está traduzindo os podcasts participantes para novos idiomas e usando a voz original de cada apresentador.

A empresa observou que o reconhecimento de imagem apresenta riscos à privacidade e disse que, em resposta, restringiu a capacidade do ChatGPT de fazer declarações sobre as pessoas. Ele observou que o ChatGPT “nem sempre é preciso”, mas disse que uma descrição geral da imagem poderia ser útil, citando seu trabalho inicial com o Be My Eyes, um aplicativo para pessoas cegas e com baixa visão.

A OpenAI disse que apresentará recursos de voz e imagem ao ChatGPT Plus e Enterprise nas próximas duas semanas. A empresa informou que o recurso de voz estará disponível em iOS e Android (opt-in), e o recurso de imagem estará disponível em todas as plataformas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)