ChatGPT puede ayudar a las personas a reparar bicicletas mirando imágenes

2023-10-31 07:57:53

Fuente: Cáscara de fruta

ChatGPT4 ya es fuerte, y ahora, con otra actualización, están demostrando que pueden ser aún más fuertes.

El 25 de septiembre, OpenAI anunció que ChatGPT agregará funciones multimodales: ChatGPT ahora no solo puede enviar mensajes de texto al diálogo, sino también ver, escuchar y hablar. Se dice que esta función estará disponible para los usuarios Plus y los usuarios empresariales dentro de dos semanas, y estará disponible para todos los usuarios de forma gratuita en el futuro (aunque tengo la cara negra y no he esperado una actualización).

ChatGPT, que se puede ver y hablar, equivale a equipar un cerebro ya poderoso con ojos y oídos, y según la demostración de OpenAI, la función multimodal puede expandir el uso de ChatGPT a una amplitud sin precedentes.

01 La vista de ChatGPT

Después de la actualización, ChatGPT puede leer imágenes.

Simplemente tome una foto y póngale una foto y puede ayudarlo a arreglar su microondas, arreglar su bicicleta, hojear recetas e incluso analizar declaraciones comerciales complejas. OpenAI dice que si tienes una pantalla táctil, también puedes rodear con un círculo las partes de la imagen en las que quieres que se enfoque.

En el video de demostración, el usuario le dio a ChatGPT una imagen de la bicicleta y le preguntó cómo ajustar la altura del sillín.

GPT dijo que era necesario encontrar una palanca de ajuste de altura debajo del asiento, pero este automóvil no tenía una palanca de ajuste, solo un perno de ajuste, y después de que el usuario encerró en un círculo el cerrojo en la foto, GPT actualizó inmediatamente el uso del perno.

Después de eso, el usuario también cargó la caja de herramientas y el manual de la bicicleta, y GPT dio un nombre detallado de la herramienta, su ubicación y cómo usarla.

No puedo arreglar bicicletas, no hay problema, solo pregúntale a ChatGPT

En comparación con la búsqueda general de reconocimiento de imágenes, ChatGPT puede procesar imágenes y textos al mismo tiempo, y también puede reconocer varias imágenes, el efecto es como la guía de conexión de video de un maestro de reparación de automóviles.

Otro usuario envió una foto de la pizza a ChatGPT y le preguntó si la pizza estaba horneada, y ChatGPT juzgó que la pizza debería ser comestible a través de los bordes dorados y crujientes de la pizza y el queso marrón derretido en la imagen, y luego dio una guía de inspección infalible: saque la pizza y eche un vistazo, si la base de la pizza ya está crujiente y la superficie está caliente, entonces la pizza es realmente comestible.

El efecto es casi como la videoguía de un chef italiano

Por supuesto, también puedes usar esta función para hacer trampa en el juego.

¿Dónde está Willy? Probablemente el juego de imágenes más conocido en el mundo de habla inglesa, Willy está vestido con ropa de rayas rojas y blancas, un sombrero de pompón y gafas de montura negra, escondido en un mar de gente, y encontrar a Willy en todo tipo de entornos desordenados es un buen recuerdo de la infancia para muchas personas.

Cuando eras niño, es posible que hayas visto a este hombrecito flaco que tenía prisa por morir

Pero ChatGPT puede arruinar el juego en un segundo. No solo identifica instantáneamente a Willy, sino que también te dice que Willy está en el lado derecho de la playa en medio de la playa, mezclándose con un grupo de personas con sombrillas azules.

No solo eso, sino que también pretende decirte que encontrar a Willy en una foto así es un desafío interesante.

Gracias, ChatGPT, por arruinar este juego

Sin embargo, algunos internautas que han utilizado la nueva versión dijeron que la función de reconocimiento de mapas de ChatGPT no es tan poderosa como se imaginaba**, al menos no puede entender los tallos homofónicos. La imagen de Für Elise de Beethoven, pero dice For Lease, ChatGPT no reconoció la partitura, no entendió el chiste y se le ocurrió una explicación.

Bastante difícil, pero no

Un reconocimiento de imágenes tan potente plantea preocupaciones sobre la privacidad: puede convertirse fácilmente en cómplice cuando se busca información personal. OpenAI promete que la compañía limitará la capacidad de ChatGPT para identificar y encontrar información personal, con el fin de proteger la privacidad personal de todos en la mayor medida posible.

02 GPT que puede hablar bien

La versión mejorada de ChatGPT también tiene una función de chat.

El modelo de reconocimiento de voz de OpenAI se llama modelo Whisper, y los usuarios pueden decir sus propias preguntas, y el modelo convertirá la voz en texto y luego convertirá la respuesta en salida de voz a través del sistema de síntesis de voz.

El modelo de síntesis de voz lanzó cinco tipos de muestras de voz esta vez, incluidas voces femeninas con contención emocional y voces planas, y voces femeninas de tías entusiastas con voces reprimidas y frustradas. Estas cinco voces son muy distinguidas, las emociones son naturales y las palabras son claras, lo cual es un poco mejor que la síntesis de voz anterior.

Cinco roles para elegir

Aunque esta vez solo se lanzaron cinco muestras de sonido, el potencial de este modelo no se detiene ahí: OpenAI se ha asociado con Spotify para traducir podcasts a otros idiomas preservando al máximo la calidad de sonido de la emisora. Si lo desea, este sistema de síntesis de voz puede imitar la voz de probablemente cualquier persona en el planeta.

Por el momento, la versión de voz de ChatGPT todavía solo está disponible en la aplicación.

03 ¿Es necesariamente bueno poder ver y oír?

ChatGPT es poderoso, pero ¿a qué costo?

Antes, la forma más eficaz de distinguir entre humanos y máquinas a gran escala era el CAPTCHA, y la capacidad de ChatGPT para leer imágenes hizo que la gente se preocupara de que los CAPTCHA ya no pudieran atrapar a la IA.

Alguien le envió a ChatGPT la siguiente pregunta de prueba clásica: Encuentra un chihuahua y un pastel de arándanos en 16 imágenes, y ChatGPT resolvió el problema perfectamente.

Pero el captcha más común, el nuevo ChatGPT aún no puede reconocerlo.

Esta pregunta requiere que ChatGPT seleccione todas las señales del diagrama, y da una tasa de error de hasta 50.

Sin embargo, ante el código de verificación que no reconocen, ChatGPT4 todavía tiene una forma de resolverlo. En este asunto, tiene antecedentes penales.

El 27 de marzo de este año, OpenAI publicó un informe técnico de GPT-4 en el que señalaba que, ante los códigos de verificación irreconocibles, GPT-4 encontró otra forma de acudir a TaskRabbit (una plataforma de conciertos extranjera) para liberar tareas, engañando a los humanos del otro lado diciéndoles que tienen discapacidades visuales y necesitan que otros les ayuden a identificar los códigos de verificación.

En algunos casos, es posible que ChatGPT engañe activamente a los humanos, lo cual es una dirección muy peligrosa. Afortunadamente, la versión pública de GPT-4 ha sido eliminada de esta característica.

El 30 de noviembre de 2022 se lanzó por primera vez ChatGPT, y en menos de un año, sus capacidades han avanzado a pasos agigantados, y parece que ya está desafiando los límites morales y éticos de la humanidad. El lanzamiento de esta nueva función nos ha hecho temer que ChatGPT, que cada vez es más potente, se convierta en una bestia en una jaula, y algún día se libere de su jaula y dañe a todos. ¿Y estamos listos para ese día?

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Gate ETH Staking APY 5%
3k Popularidad
2Show My Alpha Points
24k Popularidad
3SOL Futures Reach New High
6k Popularidad
4ETH ETF Sees 12 Weeks of Inflows
4k Popularidad
5Crypto Market Rebound
172k Popularidad

Anclado