OpenAI anuncia que ChatGPT pronto “verá, escuchará y hablará”

2023-09-26 10:22:32

Durante las próximas dos semanas se implementarán nuevas funciones que incluyen reconocimiento de voz y capacidades de texto a voz.

Según un anuncio de OpenAI del 25 de septiembre, ChatGPT pronto ofrecerá nuevas funciones que permitirán a los usuarios interactuar con él mediante reconocimiento de imagen y voz.

OpenAI anunció que los usuarios podrán interactuar con ChatGPT mediante comandos de voz, lo que permitirá una experiencia de usuario más personalizada. La compañía dice que la función funciona con un modelo de texto a voz que genera audio basado en una muestra mínima de voz creada por actores de doblaje profesionales. La compañía dijo que la función también funciona con Whisper, su sistema de reconocimiento de voz de código abierto.

Se espera que las capacidades de voz ofrezcan una gama más amplia de casos de uso, como ayudar con tareas como leer cuentos antes de dormir, crear recetas, escribir discursos, recitar poesía, explicar frases comunes e incluso resolver "debates en la mesa".

OpenAI agregó que los usuarios pronto podrán proporcionar imágenes (o seleccionar partes de imágenes) a ChatGPT para su interpretación y respuesta.

OpenAI reconoce el riesgo

OpenAI reconoció el riesgo de fraude y falsificación y dijo que, en consecuencia, estaba limitando las capacidades de voz de su plataforma de chat de voz. Destaca que utiliza actores de doblaje profesionales, en lugar de la voz del usuario, para emitir el audio. OpenAI agrega que otros grupos pueden usar la función de voz para otros fines; por ejemplo, Spotify está traduciendo los podcasts participantes a nuevos idiomas y usando la voz original de cada presentador.

La compañía señaló que el reconocimiento de imágenes plantea riesgos para la privacidad y dijo que, en respuesta, restringió la capacidad de ChatGPT para hacer declaraciones sobre las personas. Señaló que ChatGPT "no siempre es exacto", pero dijo que una descripción general de la imagen podría ser útil, citando sus primeros trabajos con Be My Eyes, una aplicación para personas ciegas y con baja visión.

OpenAI dijo que introducirá capacidades de voz e imagen en ChatGPT Plus y Enterprise en las próximas dos semanas. La compañía dijo que la función de voz estará disponible en iOS y Android (opt-in), y la función de imagen estará disponible en todas las plataformas.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
39k Popularidad
2Gate Launchpad List IKA
41k Popularidad
3ETH Trading Volume Surges
42k Popularidad
4Gate ETH 10th Anniversary Celebration
22k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado