Las capacidades multimodales de ChatGPT provocaron locura, pero su propio artículo reveló que GPT-4V todavía tiene fallas

Escrito por Kyle Wiggers

Fuente: TechCrunch

Fuente de la imagen: generada por la herramienta Unbounded AI

Cuando OpenAI lanzó por primera vez su modelo insignia de IA de generación de texto, GPT-4, la compañía promocionó la multimodalidad del modelo; en otras palabras, su capacidad para comprender no solo texto sino también imágenes. OpenAI dice que GPT-4 puede subtitular e incluso explicar imágenes relativamente complejas, como identificar un adaptador de cable Lightning a partir de una imagen de un iPhone conectado a él.

Pero desde que se lanzó GPT-4 a finales de marzo, OpenAI ha conservado las capacidades de imagen del modelo, supuestamente debido a preocupaciones sobre el mal uso y problemas de privacidad. Hasta hace poco, la naturaleza exacta de estas preocupaciones seguía siendo un misterio. A principios de esta semana, OpenAI publicó un artículo técnico que detalla su trabajo para reducir los aspectos problemáticos de la herramienta de análisis de imágenes GPT-4.

Hasta la fecha, el GPT-4 con visión habilitada (denominado internamente "GPT-4V" en OpenAI) solo lo utilizan regularmente los miles de usuarios de Be My Eyes, una aplicación que ayuda a las personas ciegas y con discapacidad visual a navegar por su entorno. Sin embargo, en los últimos meses, OpenAI también comenzó a trabajar con "equipos rojos" para explorar el modelo en busca de signos de comportamiento inesperado, según el artículo.

En el documento, OpenAI afirma que cuenta con medidas de seguridad para evitar que GPT-4V se use de manera maliciosa, como descifrar CAPTCHA, identificar a una persona o estimar su edad o raza, y sacar conclusiones basadas en información que no está presente en la foto. . OpenAI también dijo que ha trabajado para suprimir los sesgos más dañinos en GPT-4V, particularmente aquellos relacionados con la apariencia, el género o la raza de una persona.

Pero como ocurre con todos los modelos de IA, las salvaguardias sólo pueden llegar hasta cierto punto.

El artículo muestra que GPT-4V a veces tenía dificultades para hacer inferencias correctas, por ejemplo, combinando incorrectamente dos cadenas de texto en una imagen para crear un término ficticio. Al igual que la base GPT-4, GPT-4V es propenso a alucinar o fabricar hechos en un tono autoritario. Además, omite palabras o caracteres, ignora símbolos matemáticos y no reconoce objetos ni cubiertos bastante obvios.

Por lo tanto, no sorprende que OpenAI establezca explícitamente que GPT-4V no se puede utilizar para detectar sustancias o productos químicos peligrosos en imágenes. (Este periodista ni siquiera pensó en tal caso de uso, pero aparentemente OpenAI está lo suficientemente interesado en la perspectiva que la compañía consideró necesario señalarlo). Los miembros del equipo rojo descubrieron que, si bien el modelo ocasionalmente identificaba correctamente alimentos venenosos, como hongos venenosos, también identificaba incorrectamente sustancias como el fentanilo, el carfentanilo y la cocaína en imágenes de estructuras químicas.

GPT-4V también tuvo un desempeño deficiente cuando se aplicó a imágenes médicas, y en ocasiones dio respuestas incorrectas a la misma pregunta cuando había respondido correctamente en situaciones anteriores. Además, GPT-4V desconoce algunas prácticas estándar, como ver exploraciones de imágenes con el paciente frente a usted (lo que significa que el lado derecho de la imagen corresponde al lado izquierdo del paciente), lo que también puede conducir a un diagnóstico erróneo.

En otros lugares, advierte OpenAI, GPT-4V tampoco comprende los matices de ciertos símbolos de odio; por ejemplo, no conoce el significado moderno de la Cruz del Templo (para la supremacía blanca) en los Estados Unidos. Aún más extraño, y tal vez un síntoma de sus tendencias alucinatorias, se ha observado a GPT-4V componiendo canciones o poemas alabando a ciertas figuras o grupos odiosos cuando se les presentan imágenes de ellos, incluso si esas figuras o grupos no están representados.

GPT-4V también discrimina ciertos géneros y tipos de cuerpo, aunque solo cuando las salvaguardas de rendimiento de OpenAI están desactivadas. En una prueba, cuando se le pidió que diera consejos a una mujer que llevaba traje de baño, GPT-4V dio respuestas que estaban casi completamente relacionadas con conceptos de peso y condición física de la mujer, escribe OpenAI. Sospechamos que este no sería el caso si la persona en la imagen fuera un hombre.

A juzgar por las notas del artículo, GPT-4V todavía es un trabajo en progreso, todavía a varios pasos de la visión original de OpenAI. En muchos casos, la empresa ha tenido que implementar salvaguardias demasiado estrictas para evitar que los modelos difundan información tóxica o errónea o comprometan la privacidad personal.

OpenAI afirma que está creando "mitigaciones" y "procesos" para ampliar las capacidades del modelo de una manera "segura", como permitir que GPT-4V describa rostros y personas sin nombrarlos. Pero este artículo muestra que GPT-4V no es omnipotente y que OpenAI todavía tiene mucho trabajo por hacer.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)