¡DALL·E 3 se lanzará para pruebas! El problema de los astronautas a caballo está resuelto, se especifican 50 objetos en una pintura y Microsoft se involucra profundamente en la investigación como nunca antes.

2023-09-24 06:19:46

Fuente: Qubits

Microsoft Bing abrió primero la prueba limitada de DALL·E 3. ¿Ves si eres uno de los emperadores europeos?

△ de WindowsÚltimo

No importa si no ha recibido la calificación: junto con las vistas previas de investigaciones de terceros y las pruebas internas realizadas por empleados de OpenAI, han surgido varios casos de prueba uno tras otro, lo que garantiza que será agradable.

La más exagerada es que "aparecen 50 objetos diferentes en la imagen especificada", y cientos de ellos fueron dibujados.

Además de una sencilla disposición de los azulejos, estos objetos se pueden combinar de forma más creativa.

Para el concepto contrafactual de astronauta a caballo, varios modelos de OpenAI y Google en el pasado solo podían dibujar astronautas a caballo**.

El documento fue generalmente considerado como un caso de fracaso y Marcus, el pesimista de la IA en ese momento, lo ridiculizó.

Ahora, DALL·E 3 puede manejarlo fácilmente con el soporte de ChatGPT.

El gran progreso de DALL·E 3 esta vez no es solo el resultado de los propios esfuerzos de OpenAI, sino también el resultado de la cooperación conjunta entre ** y Microsoft**.

Aunque no está claro, al menos tres ingenieros e investigadores de Microsoft están involucrados en la parte de investigación de la lista de contribuciones, y la mayoría de los miembros en la parte de optimización de inferencia son del equipo de Microsoft DeepSpeed.

Mirando hacia atrás en GPT-4, todavía fue desarrollado principalmente internamente por OpenAI, y luego se le dio acceso abierto a Microsoft y otras instituciones de investigación para realizar pruebas.

Este cambio en el modelo de cooperación** también representa una mayor profundización de la relación entre las dos empresas**.

Una pintura especifica 50 objetos

Confirmado por el CEO de Microsoft Bing Mikhail Parakhin, el pequeño porcentaje afortunado de usuarios ya ha calificado para la prueba.

Dado que el número de plazas es realmente limitado, los internautas que no pueden esperar han presentado sus ideas en línea y han pedido a las personas con cuentas que las ayuden a probarlas.

El internauta que propuso dibujar 50 objetos diferentes sólo quería probar cuántos objetos DALL·E 3 podía caber en una imagen, similar a la "ventana de contexto" del modelo de lenguaje grande.

Nathan Shipley, un diseñador externo que recibió una versión preliminar del estudio, aceptó el desafío.

Primero, le pidió a ChatGPT que enumerara aleatoriamente 50 objetos diarios y luego pidió directamente que dibujara estos objetos en una pintura. La palabra completa es ChatGPT la completa por sí solo, y luego DALL·E 3 la dibuja.

Luego, Nathan preguntó: "¿Puedes crear una imagen de un surfista apilando estos objetos mientras surfea intensamente?"

ChatGPT agregó algunos detalles en la palabra de aviso:

Un surfista polinesio de mediana edad con la piel bañada por el sol sostiene 50 objetos mientras surfea intensamente, entre ellos una taza de té, una bicicleta, un paraguas... y una expresión de determinación y un ligero pánico mientras las olas rompen a su alrededor. tratando de equilibrar estos objetos y su tabla de surf.

Como resultado, obtuve una imagen que básicamente cumplió con los requisitos en un solo intento, excepto que la expresión del personaje parecía más de pánico extremo que de pánico leve.

Más tarde, Nathan pidió una perspectiva más baja. Esta vez, ChatGPT cambió la descripción del personaje en la palabra inicial a "una anciana española".

Los espectadores lo encontraron muy sorprendente, pero también señalaron por qué el tamaño del lápiz era desproporcionado con respecto a otros objetos.

Algunas personas especulan que el modelo sólo sabe cómo es un objeto, pero no su tamaño relativo, especialmente porque las fotografías publicitarias de bolígrafos a menudo utilizan primeros planos.

Además, Nathan también preguntó desde ChatGPT qué parámetros de la pantalla puede controlar el usuario.

ChatGPT respondió lo siguiente:

describir:

Puede proporcionar una descripción detallada de la imagen deseada. Cuanto más específico y detallado seas, más se acercará la imagen resultante a tus deseos.

Estilo y medio:

Puede especificar el estilo o medio de la imagen, como "Pintura", "Foto", "Ilustración", "Dibujos animados", "Acuarela", "Representación 3D", etc.

Resolución:

De forma predeterminada, las imágenes se generan con una resolución de 1729x1024. Pero si su descripción sugiere un retrato de cuerpo entero o algo más adecuado para relaciones de aspecto altas, la imagen se generará a 1024x1792. También puede solicitar una resolución cuadrada (1024x1024) si es necesario.

Número de fotos

: Si no especificas una, normalmente creo cuatro imágenes diferentes según tu descripción. Sin embargo, puedes solicitar un número específico (hasta cuatro).

Revisar

: Si no está satisfecho con los resultados iniciales, puede proporcionar comentarios y solicitar modificaciones. Si bien no puedo modificar directamente las imágenes existentes, puedo utilizar sus comentarios para generar nuevas imágenes que se ajusten mejor a su visión.

Semilla aleatoria

: Si desea modificar una imagen anterior, puedo usar la semilla en los metadatos de esa imagen para generar una nueva versión. Esto asegura una cierta coherencia entre las imágenes originales y modificadas.

Tenga en cuenta,

Se aplican algunas limitaciones. Por ejemplo, las imágenes de figuras públicas y los estilos de los artistas de los últimos 100 años no se pueden crear directamente.

La atención se centra en la espalda:

**Sin embargo, puedo ofrecer alternativas o utilizar adjetivos para capturar la esencia de un estilo en particular sin citarlo directamente. **

Rompecabezas de astronauta a caballo resuelto

Entre los empleados internos de OpenAI, Will DePue es el más activo en la divulgación de los resultados de la prueba DALL·E 3.

En la prueba de astronauta a caballo, dijo que no fue 100% exitosa.

Puede hacerlo bien en dos o tres intentos porque GPT-4 trabaja con usted para refinar las palabras clave hasta que lo haga bien.

Con un poco de esfuerzo puedes conseguir casi todo lo que quieras.

Algunos internautas intentaron utilizar MidJourney para obtener los mismos resultados, pero solo se puede decir que no es del todo imposible, pero requiere mucho esfuerzo.

Casi imposible, requiere mucha ingeniería de sugerencias y es difícil de reproducir.

Si es un usuario experimentado de MidJourney, también puede intentar ver si funciona.

En el desafío "8 jirafas bebiendo agua" propuesto por los internautas, DALL·E 3 mostró una vez más la debilidad de ser difícil de contar con precisión.

△ Cuenta cuántas jirafas hay en la imagen.

Otros intentos erróneos también dieron como resultado una jirafa de dos cabezas.

Lograr que la IA cuente correctamente no resuelve esta vez, pero al menos resuelve el problema de comprender las relaciones espaciales.

En el desafío "Cuatro cebras corriendo por la pradera, un león persiguiendo detrás y un águila arriba, no hay otros animales en la imagen" propuesto por los internautas, la relación espacial es básicamente correcta, pero hay una extra cebra.

En comparación, tanto DALL·E 2 como Stable Diffusion tienen una peor comprensión de las relaciones espaciales.

Adam Goldberg, responsable de la versión empresarial de ChatGPT en OpenAI, también publicó muchos resultados de alta calidad, pero no compartió las palabras clave.

Jerry Tworek, responsable de escribir códigos de IA y herramientas de llamada, ha creado muchas pinturas conceptuales abstractas, como "División de células mecánicas".

y "Árboles de programas informáticos a través de la galaxia".

Microsoft OpenAI coopera

DALL·E 3 ha realizado una gran mejora esta vez. Además de integrar ChatGPT, ¿cómo se realiza exactamente la parte de generación de imágenes?

Desafortunadamente, dada la tendencia cada vez más cercana de OpenAI, es probable que no publique artículos como las dos generaciones anteriores. Solo podemos hacer algunas conjeturas de la lista de contribuciones.

Hay cinco autores en el artículo de DALL·E 2.

En cuanto a DALL·E 3, independientemente del equipo de producto, seguridad, comunicación pública y legal, 18 personas participaron solo en la parte de investigación.

Entre ellos se encuentra Yang Song, un alumno de Tsinghua que propuso los Modelos de Consistencia.

El modelo de coherencia es más rápido que el modelo de difusión más popular y puede generar 64 256*256 imágenes en 3,5 segundos.

Sin embargo, la contribución de Song Yang a la investigación esta vez es menor: no está seguro de si DALL·E 3 utilizó el modelo de consistencia. Es más probable que haya tomado prestado su método en el modelo de difusión mejorado.

Además, además del autor de DALL·E 2 y Ouyang Long del equipo ChatGPT, al menos tres investigadores son de Microsoft.

El Dr. Jianfeng Wang se graduó de la Universidad de Ciencia y Tecnología de China y se desempeña como investigador jefe en Microsoft.

Dr. Lijuan Wang se graduó de la Universidad de Tsinghua y trabaja como director gerente de investigación en Microsoft.

Los dos han participado en la investigación de NUWA-Ininity, una generación de imágenes en lienzo infinito.

Lindsey Li (Lindsey Li) es alumna del Instituto de Tecnología de Beijing. Recibió dos maestrías de la Universidad Purdue y UC San Diego. Es investigadora senior en Microsoft y ha publicado muchos artículos de conferencias de primer nivel en el campo de multimodalidad.

Además de la investigación, la optimización de inferencia de DALL·E 3 cuenta con la profunda participación del equipo de Microsoft DeepSpeed.

Deepspeed es una biblioteca de optimización de aprendizaje profundo de código abierto que reduce el consumo de energía informática y el uso de memoria, y entrena e infiere modelos distribuidos a gran escala a través de un mejor paralelismo en el hardware existente.

Muchos de ellos expresaron su placer de participar en este trabajo y estaban entusiasmados con el lanzamiento de DALL·E 3.

Finalmente, entre las contribuciones especiales, se encuentran el CEO de Bing de Microsoft, Mikhail Parakhin**, y el Vicepresidente jefe de Azure Cloud, Misha Bilenko.

Microsoft también confirmó en sus actividades de lanzamiento anteriores que Bing integrará directamente DALL·E 3.

Según las normas actuales, DALL·E 2 en Bing es gratuito. Se emitirán 99 tokens de aceleración. Sin tokens, simplemente tomará más tiempo hacer cola.

Aunque DALL·E 3 costará 20 dólares al mes en ChatGPT Plus en octubre.

Pero dado que GPT-4 se proporciona de forma gratuita en Bing, también puedes esperar una ola de DALL·E 3 free play en el futuro~

Enlaces de referencia:

[1]

[2]

[3]

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
35k Popularidad
2Gate Launchpad List IKA
41k Popularidad
3ETH Trading Volume Surges
40k Popularidad
4Gate ETH 10th Anniversary Celebration
22k Popularidad
5Trump’s AI Strategy
18k Popularidad

Anclado