¡Se lanza el modelo rey multimodal GPT-4V, 166 páginas de "instrucciones"! Y es producido por Microsoft Team.
¿Qué tipo de artículo se puede escribir en 166 páginas?
No solo evalúa en detalle el desempeño del GPT-4V en las diez tareas principales, sino que también demuestra todo, desde el reconocimiento básico de imágenes hasta el razonamiento lógico complejo;
También enseña un conjunto completo de modelos grandes multimodales habilidades de uso de palabras clave——
Le enseña paso a paso cómo escribir palabras clave del 0 al 1, y el nivel profesional de la respuesta es fácil de entender de un vistazo, lo que realmente hace que el umbral para usar GPT-4V sea inexistente.
Vale la pena mencionar que el autor de este artículo también es una "clase exclusivamente china", los siete autores son todos chinos y la líder es una directora jefa de investigación que ha trabajado en Microsoft durante 17 años.
Antes de la publicación del informe de 166 páginas, también participaron en la investigación del último DALL·E 3 de OpenAI y tienen un profundo conocimiento de este campo.
En comparación con el documento GPT-4V de 18 páginas de OpenAI, esta "Guía de alimentación" de 166 páginas se consideró inmediatamente una lectura obligada para los usuarios de GPT-4V tan pronto como se publicó:
Algunos internautas se lamentaron: esto no es un artículo, es casi un libro de 166 páginas.
Algunos internautas ya entraron en pánico después de leer:
No mires solo los detalles de la respuesta de GPT-4V. Tengo mucho miedo de las capacidades potenciales de la IA.
Entonces, ¿de qué habla exactamente el "documento" de Microsoft y qué "potencial" muestra sobre GPT-4V?
**¿Qué dice el informe de 166 páginas de Microsoft? **
Este artículo estudia el método de GPT-4V, cuyo núcleo se basa en una palabra: "intentar".
Los investigadores de Microsoft diseñaron una serie de entradas que cubrían múltiples dominios, las alimentaron a GPT-4V y observaron y registraron la salida de GPT-4V.
Posteriormente, evaluaron la capacidad de GPT-4V para completar diversas tareas y también brindaron nuevas técnicas de palabras clave para usar GPT-4V, incluidos cuatro aspectos principales:
**1. Uso de GPT-4V: **
5 formas de uso: imágenes de entrada (imágenes), subimágenes (subimágenes), textos (textos), textos de escena (textos de escena) y punteros visuales (punteros visuales).
Se admiten tres capacidades: seguimiento de instrucciones, cadena de pensamientos y aprendizaje de pocas oportunidades en contexto.
Por ejemplo, esta es la habilidad de seguir instrucciones demostrada por GPT-4V después de cambiar el método de preguntas basado en la cadena de pensamiento:
**2. Rendimiento de GPT-4V en 10 tareas principales: **
Comprensión visual del mundo abierto, descripción visual, conocimiento multimodal, sentido común, comprensión del texto de la escena, razonamiento de documentos, escritura Codificación, razonamiento temporal, razonamiento abstracto, comprensión de las emociones
Entre ellas se encuentran este tipo de "preguntas de razonamiento de imágenes" que requieren algo de coeficiente intelectual para resolverse:
**3. Habilidades de palabras rápidas para modelos multimodales grandes similares a GPT-4V: **
Se propone una nueva técnica de palabras clave multimodal, "referencia visual", que puede indicar la tarea de interés editando directamente la imagen de entrada y utilizándola en combinación con otras técnicas de palabras clave.
**4. Potencial de investigación e implementación de grandes modelos multimodales: **
Se predicen dos tipos de áreas en las que los investigadores del aprendizaje multimodal deberían centrarse, incluida la implementación (posibles escenarios de aplicación) y las direcciones de investigación.
Por ejemplo, este es uno de los posibles escenarios para GPT-4V encontrados por los investigadores: detección de fallas:
Pero ya sea la nueva tecnología de palabras rápidas o los escenarios de aplicación de GPT-4V, lo que más preocupa a todos es la verdadera fuerza de GPT-4V.
Por lo tanto, este "manual de instrucciones" utilizó posteriormente más de 150 páginas para mostrar varias demostraciones, detallando las capacidades del GPT-4V ante diferentes respuestas.
Echemos un vistazo a hasta qué punto han evolucionado hoy las capacidades multimodales del GPT-4V.
** Competente en imágenes en campos profesionales y ahora también puedo aprender conocimientos **
Identificación de imagen
La identificación más básica es, por supuesto, pan comido, como celebridades de todos los ámbitos de la vida en los círculos de tecnología, deportes y entretenimiento:
Y no sólo puedes ver quiénes son estas personas, sino que también puedes interpretar lo que están haciendo. Por ejemplo, en la imagen siguiente, Huang presenta los nuevos productos de tarjetas gráficas de Nvidia.
Además de las personas, los puntos de referencia también son muy sencillos para GPT-4V: no solo puede determinar el nombre y la ubicación, sino que también ofrece introducciones detalladas.
△Izquierda: Times Square, Nueva York, derecha: Templo Kinkakuji, Kioto
Sin embargo, cuanto más personas y lugares famosos sean, más fácil será juzgarlos, por lo que se necesitan imágenes más difíciles para mostrar las capacidades del GPT-4V.
Por ejemplo, en imágenes médicas, para la siguiente TC de pulmón, GPT-4V arrojó esta conclusión:
Hay consolidaciones y opacidades en vidrio esmerilado en múltiples áreas de ambos pulmones, y puede haber infección o inflamación en los pulmones. También puede haber una masa o nódulo en el lóbulo superior del pulmón derecho.
Incluso sin decirle al GPT-4V el tipo y la ubicación de la imagen, puede juzgarla por sí mismo.
En esta imagen, GPT-4V la identificó con éxito como una imagen de resonancia magnética (MRI) del cerebro.
Al mismo tiempo, GPT-4V también encontró una gran cantidad de acumulación de líquido, lo que se consideró un glioma de alto grado.
Según el criterio profesional, la conclusión dada por GPT-4V es completamente correcta.
Además de estos contenidos "serios", GPT-4V también ha capturado los emoticones del "patrimonio cultural inmaterial" de la sociedad humana contemporánea.
△Traducción automática, solo como referencia.
No solo puede interpretar memes en emoticonos, sino que GPT-4 también puede ver las emociones expresadas por expresiones humanas en el mundo real.
Además de estas imágenes reales, el reconocimiento de texto también es una tarea importante en la visión artificial.
En este sentido, GPT-4V no sólo puede reconocer idiomas escritos con caracteres latinos, sino también otros idiomas como chino, japonés y griego.
Incluso fórmulas matemáticas escritas a mano:
### Razonamiento de imagen
La DEMO que se muestra arriba, no importa cuán profesional o difícil sea de entender, todavía está dentro del alcance del reconocimiento, pero esto es solo la punta del iceberg de las habilidades de GPT-4V.
Además de comprender el contenido de la imagen, GPT-4V también tiene ciertas capacidades de razonamiento.
En pocas palabras, GPT-4V puede encontrar las diferencias entre las dos imágenes (aunque todavía hay algunos errores).
En el siguiente conjunto de imágenes, GPT-4V descubrió las diferencias entre la corona y el arco.
Si aumenta la dificultad, GPT-4V también puede resolver los problemas gráficos en la prueba de coeficiente intelectual.
Las características o relaciones lógicas de las tres preguntas anteriores son relativamente simples, pero la dificultad surgirá a continuación:
Por supuesto, la dificultad no radica en los gráficos en sí. Preste atención a la cuarta descripción del texto en la imagen. La disposición de los gráficos en la pregunta original no es la que se muestra en la imagen.
### Anotación de imagen
Además de responder varias preguntas con texto, GPT-4V también puede realizar una serie de operaciones con imágenes.
Por ejemplo, tenemos una foto grupal de cuatro gigantes de la IA y necesitamos GPT-4V para enmarcar a los personajes y etiquetar sus nombres y breves presentaciones.
GPT-4V primero respondió estas preguntas con texto y luego proporcionó la imagen procesada:
### Análisis de contenido dinámico
Además de estos contenidos estáticos, GPT-4V también puede realizar análisis dinámicos, pero no envía directamente un vídeo al modelo.
Las cinco imágenes a continuación están tomadas de un video tutorial sobre cómo hacer sushi. La tarea de GPT-4V es adivinar el orden en que aparecen estas imágenes (según la comprensión del contenido).
Para la misma serie de imágenes, puede haber diferentes formas de entenderlas, por lo que GPT-4V emitirá juicios basándose en indicaciones de texto.
Por ejemplo, en el siguiente conjunto de imágenes, si la acción de la persona es abrir la puerta o cerrarla conducirá a resultados de clasificación completamente opuestos.
Por supuesto, a través de los cambios en el estado de los personajes en múltiples imágenes, también podemos inferir lo que están haciendo.
O incluso predecir lo que sucederá a continuación:
### "Aprendizaje presencial"
GPT-4V no solo tiene fuertes habilidades visuales, sino que la clave es que se puede aprender y vender de inmediato.
Por ejemplo, si se le pide a GPT-4V que lea el tablero de un automóvil, la respuesta obtenida inicialmente es incorrecta:
Luego le di el método a GPT-4V en texto, pero esta respuesta sigue siendo incorrecta:
Luego le mostré el ejemplo a GPT-4V y la respuesta fue similar, pero desafortunadamente los números se inventaron al azar.
De hecho, solo un ejemplo es un poco pequeño, pero a medida que aumenta la cantidad de muestras (en realidad solo hay una más), el trabajo duro finalmente vale la pena y GPT-4V da la respuesta correcta.
GPT-4V solo muestra tantos efectos. Por supuesto, también admite más campos y tareas. Es imposible mostrarlos uno por uno aquí. Si está interesado, puede leer el informe original.
Entonces, ¿qué tipo de equipo está detrás de los efectos de estos artefactos como GPT-4V?
Líder de exalumnos de Tsinghua
Hay un total de 7 autores de este artículo, todos chinos y 6 de los cuales son autores principales.
El autor principal del proyecto, Lijuan Wang, es el principal director de investigación de computación en la nube e inteligencia artificial en Microsoft.
Se graduó de la Universidad de Ciencia y Tecnología de Huazhong y recibió su doctorado de la Universidad de Tsinghua en China. Se unió a Microsoft Research Asia en 2006 y a Microsoft Research en Redmond en 2016.
Su campo de investigación es el aprendizaje profundo y el aprendizaje automático basado en inteligencia perceptiva multimodal, que incluye específicamente el entrenamiento previo de modelos de lenguaje visual, la generación de subtítulos de imágenes, la detección de objetivos y otras tecnologías de inteligencia artificial.
Direccion original:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Microsoft ha escrito un manual de GPT-4V: 166 páginas de explicaciones completas y detalladas, incluidos ejemplos de demostración de Word.
Fuente: Qubits
¡Se lanza el modelo rey multimodal GPT-4V, 166 páginas de "instrucciones"! Y es producido por Microsoft Team.
¿Qué tipo de artículo se puede escribir en 166 páginas?
No solo evalúa en detalle el desempeño del GPT-4V en las diez tareas principales, sino que también demuestra todo, desde el reconocimiento básico de imágenes hasta el razonamiento lógico complejo;
También enseña un conjunto completo de modelos grandes multimodales habilidades de uso de palabras clave——
Le enseña paso a paso cómo escribir palabras clave del 0 al 1, y el nivel profesional de la respuesta es fácil de entender de un vistazo, lo que realmente hace que el umbral para usar GPT-4V sea inexistente.
Antes de la publicación del informe de 166 páginas, también participaron en la investigación del último DALL·E 3 de OpenAI y tienen un profundo conocimiento de este campo.
En comparación con el documento GPT-4V de 18 páginas de OpenAI, esta "Guía de alimentación" de 166 páginas se consideró inmediatamente una lectura obligada para los usuarios de GPT-4V tan pronto como se publicó:
**¿Qué dice el informe de 166 páginas de Microsoft? **
Este artículo estudia el método de GPT-4V, cuyo núcleo se basa en una palabra: "intentar".
Los investigadores de Microsoft diseñaron una serie de entradas que cubrían múltiples dominios, las alimentaron a GPT-4V y observaron y registraron la salida de GPT-4V.
Posteriormente, evaluaron la capacidad de GPT-4V para completar diversas tareas y también brindaron nuevas técnicas de palabras clave para usar GPT-4V, incluidos cuatro aspectos principales:
**1. Uso de GPT-4V: **
5 formas de uso: imágenes de entrada (imágenes), subimágenes (subimágenes), textos (textos), textos de escena (textos de escena) y punteros visuales (punteros visuales).
Se admiten tres capacidades: seguimiento de instrucciones, cadena de pensamientos y aprendizaje de pocas oportunidades en contexto.
Por ejemplo, esta es la habilidad de seguir instrucciones demostrada por GPT-4V después de cambiar el método de preguntas basado en la cadena de pensamiento:
Comprensión visual del mundo abierto, descripción visual, conocimiento multimodal, sentido común, comprensión del texto de la escena, razonamiento de documentos, escritura Codificación, razonamiento temporal, razonamiento abstracto, comprensión de las emociones
Entre ellas se encuentran este tipo de "preguntas de razonamiento de imágenes" que requieren algo de coeficiente intelectual para resolverse:
Se propone una nueva técnica de palabras clave multimodal, "referencia visual", que puede indicar la tarea de interés editando directamente la imagen de entrada y utilizándola en combinación con otras técnicas de palabras clave.
Se predicen dos tipos de áreas en las que los investigadores del aprendizaje multimodal deberían centrarse, incluida la implementación (posibles escenarios de aplicación) y las direcciones de investigación.
Por ejemplo, este es uno de los posibles escenarios para GPT-4V encontrados por los investigadores: detección de fallas:
Echemos un vistazo a hasta qué punto han evolucionado hoy las capacidades multimodales del GPT-4V.
** Competente en imágenes en campos profesionales y ahora también puedo aprender conocimientos **
Identificación de imagen
La identificación más básica es, por supuesto, pan comido, como celebridades de todos los ámbitos de la vida en los círculos de tecnología, deportes y entretenimiento:
Sin embargo, cuanto más personas y lugares famosos sean, más fácil será juzgarlos, por lo que se necesitan imágenes más difíciles para mostrar las capacidades del GPT-4V.
Por ejemplo, en imágenes médicas, para la siguiente TC de pulmón, GPT-4V arrojó esta conclusión:
En esta imagen, GPT-4V la identificó con éxito como una imagen de resonancia magnética (MRI) del cerebro.
Al mismo tiempo, GPT-4V también encontró una gran cantidad de acumulación de líquido, lo que se consideró un glioma de alto grado.
Según el criterio profesional, la conclusión dada por GPT-4V es completamente correcta.
No solo puede interpretar memes en emoticonos, sino que GPT-4 también puede ver las emociones expresadas por expresiones humanas en el mundo real.
En este sentido, GPT-4V no sólo puede reconocer idiomas escritos con caracteres latinos, sino también otros idiomas como chino, japonés y griego.
La DEMO que se muestra arriba, no importa cuán profesional o difícil sea de entender, todavía está dentro del alcance del reconocimiento, pero esto es solo la punta del iceberg de las habilidades de GPT-4V.
Además de comprender el contenido de la imagen, GPT-4V también tiene ciertas capacidades de razonamiento.
En pocas palabras, GPT-4V puede encontrar las diferencias entre las dos imágenes (aunque todavía hay algunos errores).
En el siguiente conjunto de imágenes, GPT-4V descubrió las diferencias entre la corona y el arco.
Por supuesto, la dificultad no radica en los gráficos en sí. Preste atención a la cuarta descripción del texto en la imagen. La disposición de los gráficos en la pregunta original no es la que se muestra en la imagen.
Además de responder varias preguntas con texto, GPT-4V también puede realizar una serie de operaciones con imágenes.
Por ejemplo, tenemos una foto grupal de cuatro gigantes de la IA y necesitamos GPT-4V para enmarcar a los personajes y etiquetar sus nombres y breves presentaciones.
Además de estos contenidos estáticos, GPT-4V también puede realizar análisis dinámicos, pero no envía directamente un vídeo al modelo.
Las cinco imágenes a continuación están tomadas de un video tutorial sobre cómo hacer sushi. La tarea de GPT-4V es adivinar el orden en que aparecen estas imágenes (según la comprensión del contenido).
Por ejemplo, en el siguiente conjunto de imágenes, si la acción de la persona es abrir la puerta o cerrarla conducirá a resultados de clasificación completamente opuestos.
GPT-4V no solo tiene fuertes habilidades visuales, sino que la clave es que se puede aprender y vender de inmediato.
Por ejemplo, si se le pide a GPT-4V que lea el tablero de un automóvil, la respuesta obtenida inicialmente es incorrecta:
Entonces, ¿qué tipo de equipo está detrás de los efectos de estos artefactos como GPT-4V?
Líder de exalumnos de Tsinghua
Hay un total de 7 autores de este artículo, todos chinos y 6 de los cuales son autores principales.
Su campo de investigación es el aprendizaje profundo y el aprendizaje automático basado en inteligencia perceptiva multimodal, que incluye específicamente el entrenamiento previo de modelos de lenguaje visual, la generación de subtítulos de imágenes, la detección de objetivos y otras tecnologías de inteligencia artificial.
Direccion original: