El miércoles, OpenAI acaba de anunciar el levantamiento de la prohibición de las capacidades multimodales de ChatGPT.
Ahora, tan pronto como se publica en línea, los internautas se vuelven locos instantáneamente.
A continuación, echemos un vistazo a qué tan sólidas son las capacidades de reconocimiento de imágenes de ChatGPT.
Tome una foto y cárguela, y el código se generará instantáneamente
Un internauta grabó un vídeo y subió una imagen de pizarra durante una reunión y luego le pidió a ChatGPT que escribiera el código.
Además, puedes subir un boceto dibujado a mano y pedirle a ChatGPT que cree una página web en HTML.
Whoosh whoosh, el código salía cada minuto.
Esta es simplemente la capacidad multimodal demostrada por Greg Brockman cuando se lanzó GPT-4 este año.
Para otro ejemplo, tome una foto de su cuaderno de lista de tareas pendientes.
Luego, deje que GPT-4 cree una GUI de Python Tkinter y luego se implementó...
Manuscritos en pergaminos antiguos, traducidos de un vistazo
Aquí hay otro dibujo manuscrito del alquimista Robert Boyle del siglo XVII. ¿Puede GPT-4 leerlo?
Esto es pan comido para ello.
Por ejemplo, “Manual medicinal catalán sobre momias medicinales”.
ChatGPT también puede transcribir y traducir.
Benjamin Breen, profesor asociado de historia de la UCSC, dijo:
Esto tendrá un impacto significativo en los historiadores. Imagine un GPT-4 multimodal personalizado entrenado en un conjunto específico de manuscritos. No sólo puede transcribir, sino también traducir y clasificar. (En mi opinión, esto es lo más importante, escribir sin un LLM).
El resumen del gráfico también es muy 6
También puede ordenarle a GPT-4 que extraiga datos según el gráfico.
Luego se puede crear código Python para replicar el gráfico y hacerlo más parecido a un gráfico.
Luego, envíele el gráfico de tendencias de las acciones y también podrá analizar y resumir las características.
Reconocer imágenes "Superior IQ"
Dale a GPT-4 una imagen abstracta.
De hecho, puede identificar con precisión la metáfora de "la importancia de la comunicación" que estas cuatro imágenes quieren expresar, lo cual es escandaloso.
GPT-4V puede incluso leer la letra de los médicos.
Algunos internautas japoneses utilizaron directamente a Sun Wukong de "Dragon Ball" para realizar la prueba ChatGPT.
También hay varios códigos de verificación para "¿eres humano?"
Cargue una parte de su propio trabajo y GPT-4 también podrá brindarle sugerencias para mejorar.
Algunos internautas descubrieron que GPT-4V dio la respuesta correcta a esta pregunta en el artículo de kosmos-1, pero hubo un error en el proceso de razonamiento.
Con esta función, los niños ya no tendrán que hacer los deberes.
Resumen de los internautas
Además de la experiencia anterior, algunos internautas escribieron un largo artículo presentando su propia prueba de GPT-4V.
Prueba 1: Preguntas y respuestas visuales
Dame un emoticón y mira qué tan bien lo entiende GPT-4V.
GPT-4V explica con éxito por qué es interesante y menciona los componentes individuales de la imagen y cómo están conectados.
Vale la pena señalar que GPT-4V puede leer y responder a los comentarios proporcionados entre corchetes.
A pesar de esto, GPT-4V aún cometió un error al marcar el pollo frito como "NVIDIA BURGER" en lugar de "GPU".
Luego, pruébalo nuevamente con una moneda, una foto de un centavo americano. GPT-4V puede identificar con éxito el origen y la denominación de la moneda.
Pero si es una imagen de varias monedas y pregunta GPT-4V, ¿cuánto dinero tengo?
En este punto, solo puede identificar la cantidad de monedas, pero no el tipo de moneda.
Prueba 2: reconocimiento OCR
Capture imágenes de texto de páginas web y cárguelas. GPT-4V puede leer el contenido muy bien.
Prueba 3: OCR de matemáticas
El OCR matemático es una forma especial de reconocimiento óptico de caracteres que se centra en ecuaciones matemáticas.
Un internauta le preguntó a GPT-4V un problema matemático y lo presentó en forma de captura de pantalla del documento.
Este problema implica calcular la longitud de una línea de cremallera teniendo en cuenta 2 ángulos, con el mensaje "resolverlo" en la imagen.
El modelo identifica problemas que se pueden resolver mediante trigonometría, identifica las funciones que se utilizarán y proporciona un tutorial paso a paso sobre cómo resolver el problema. Luego, GPT-4V proporciona la respuesta correcta a la pregunta.
Dicho esto, la tarjeta del sistema GPT-4V indica que es posible que al modelo le falten símbolos matemáticos.
Diferentes pruebas, incluidas pruebas con ecuaciones o expresiones escritas a mano en papel, pueden indicar la capacidad insuficiente de un modelo para responder preguntas de matemáticas.
Prueba 4: Detección de objetos
Al pedirle a GPT-4V que detecte un perro en una imagen y proporcione valores x_min, y_min, x_max e y_max relacionados con la posición del perro, las coordenadas del cuadro delimitador devueltas por GPT-4V no coinciden la posición del perro.
Aunque GPT-4V es muy potente para responder preguntas sobre imágenes, este modelo no puede reemplazar los modelos de detección de objetos de ajuste fino cuando se desea saber dónde se encuentra un objeto en la imagen.
Prueba 5: Código de verificación
Se descubrió que GPT-4V podía reconocer imágenes que contenían códigos de verificación, pero a menudo no pasaba la prueba.
En un ejemplo de selección de cuadrículas de semáforos, GPT-4V seleccionó menos cuadrículas que contengan semáforos.
Prueba 6: Crucigramas y Sudoku
En la prueba de Sudoku, GPT-4V reconoció el juego pero no entendió la estructura del tablero y, por lo tanto, arrojó resultados inexactos.
Por cierto, la función de red ChatGPT ha vuelto.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Se levanta la prohibición multimodal de ChatGPT, ¡los internautas se están volviendo locos!
**Fuente:**Xinzhiyuan
El miércoles, OpenAI acaba de anunciar el levantamiento de la prohibición de las capacidades multimodales de ChatGPT.
Ahora, tan pronto como se publica en línea, los internautas se vuelven locos instantáneamente.
A continuación, echemos un vistazo a qué tan sólidas son las capacidades de reconocimiento de imágenes de ChatGPT.
Tome una foto y cárguela, y el código se generará instantáneamente
Un internauta grabó un vídeo y subió una imagen de pizarra durante una reunión y luego le pidió a ChatGPT que escribiera el código.
Esta es simplemente la capacidad multimodal demostrada por Greg Brockman cuando se lanzó GPT-4 este año.
Manuscritos en pergaminos antiguos, traducidos de un vistazo
Aquí hay otro dibujo manuscrito del alquimista Robert Boyle del siglo XVII. ¿Puede GPT-4 leerlo?
Esto tendrá un impacto significativo en los historiadores. Imagine un GPT-4 multimodal personalizado entrenado en un conjunto específico de manuscritos. No sólo puede transcribir, sino también traducir y clasificar. (En mi opinión, esto es lo más importante, escribir sin un LLM).
El resumen del gráfico también es muy 6
También puede ordenarle a GPT-4 que extraiga datos según el gráfico.
Reconocer imágenes "Superior IQ"
Dale a GPT-4 una imagen abstracta.
De hecho, puede identificar con precisión la metáfora de "la importancia de la comunicación" que estas cuatro imágenes quieren expresar, lo cual es escandaloso.
Resumen de los internautas
Además de la experiencia anterior, algunos internautas escribieron un largo artículo presentando su propia prueba de GPT-4V.
Dame un emoticón y mira qué tan bien lo entiende GPT-4V.
Vale la pena señalar que GPT-4V puede leer y responder a los comentarios proporcionados entre corchetes.
A pesar de esto, GPT-4V aún cometió un error al marcar el pollo frito como "NVIDIA BURGER" en lugar de "GPU".
Luego, pruébalo nuevamente con una moneda, una foto de un centavo americano. GPT-4V puede identificar con éxito el origen y la denominación de la moneda.
En este punto, solo puede identificar la cantidad de monedas, pero no el tipo de moneda.
Capture imágenes de texto de páginas web y cárguelas. GPT-4V puede leer el contenido muy bien.
El OCR matemático es una forma especial de reconocimiento óptico de caracteres que se centra en ecuaciones matemáticas.
Un internauta le preguntó a GPT-4V un problema matemático y lo presentó en forma de captura de pantalla del documento.
Este problema implica calcular la longitud de una línea de cremallera teniendo en cuenta 2 ángulos, con el mensaje "resolverlo" en la imagen.
Dicho esto, la tarjeta del sistema GPT-4V indica que es posible que al modelo le falten símbolos matemáticos.
Diferentes pruebas, incluidas pruebas con ecuaciones o expresiones escritas a mano en papel, pueden indicar la capacidad insuficiente de un modelo para responder preguntas de matemáticas.
Prueba 4: Detección de objetos
Al pedirle a GPT-4V que detecte un perro en una imagen y proporcione valores x_min, y_min, x_max e y_max relacionados con la posición del perro, las coordenadas del cuadro delimitador devueltas por GPT-4V no coinciden la posición del perro.
Prueba 5: Código de verificación
Se descubrió que GPT-4V podía reconocer imágenes que contenían códigos de verificación, pero a menudo no pasaba la prueba.
En un ejemplo de selección de cuadrículas de semáforos, GPT-4V seleccionó menos cuadrículas que contengan semáforos.
En la prueba de Sudoku, GPT-4V reconoció el juego pero no entendió la estructura del tablero y, por lo tanto, arrojó resultados inexactos.