A mitad del viaje marcó el comienzo del oponente más fuerte, los gigantes financieros de la ronda inicial se reunieron y la versión beta permitió a Musk seguir adelante con una "clave".

2023-08-24 08:54:10

**Fuente:**El poder de la máquina

Durante mucho tiempo, Midjourney se sentó firmemente en el trono del diagrama de AIGC Vincent, con pocas amenazas hasta la aparición de esta empresa.

El 23 de agosto, Ideogram AI, una startup de inteligencia artificial generativa, anunció oficialmente: "Estamos desarrollando las herramientas de inteligencia artificial más avanzadas para hacer que la expresión creativa sea más fácil, más divertida y más eficiente", escribió el sitio web oficial.

Los miembros principales del equipo también son los miembros principales del equipo de Google Brain Imagen, y también se considera que Ideogram AI intenta llevar adelante Imagen:

Mohammad Norouzi (CEO), Jonathan Ho (cofundador), William Chan y Chitwan Saharia son todos los autores principales del modelo de IA de conversión de texto a imagen de Google, Imagen, y artículos relacionados han sido preseleccionados para el artículo destacado de NeurIPS 2022.

Imagen utiliza el modelo de lenguaje Transformer para convertir el texto de entrada en una secuencia de vectores incrustados. Luego, una serie de tres modelos de difusión (modelo de difusión) convertirán estos vectores incrustados en imágenes de 1024x1024 píxeles.

Debido a que es conceptualmente simple y fácil de entrenar, y también puede producir efectos sorprendentemente poderosos, Imagen no solo remodela la comprensión de todos sobre los modelos de difusión, sino que también abre un nuevo paradigma de gráficos Vincent más allá de DALL-E 2.

Más tarde, después de que Meta anunciara su modelo de IA de vídeo de texto Make-A-Video, Google lanzó el modelo de vídeo Imagen Video (mira, los nombres son similares), que se basa en el modelo de difusión de vídeo en cascada para generar vídeos de alta definición.

Imagen Video hereda la función de representar texto con precisión del anterior sistema de imágenes de generación de texto Imagen y, en base a esto, puede generar varias animaciones creativas con solo una simple descripción.

Los miembros actuales del equipo se muestran en el sitio web oficial.

"Nuestro equipo fundador ha liderado proyectos transformadores de inteligencia artificial en Google Brain, UC Berkeley, la Universidad Carnegie Mellon y la Universidad de Toronto", muestra el sitio web oficial.

Mohammad Norouzi trabajó en Google Brain durante 7 años antes de iniciar su propio negocio. El último nivel en Google fue el de investigador científico senior, centrándose en modelos generativos. Ideogram AI tiene la gama más amplia de trabajo fundamental en inteligencia artificial, que incluye Imagen, Imagen Video, WaveGrad para síntesis de voz, traducción automática neuronal, aprendizaje de representaciones visuales, estudio contrastivo, etc. Los miembros del equipo colaborativos también son los más.

El cofundador Jonathan Ho, un doctorado de UC Berkeley, ha trabajado tanto en el modelo de difusión que los expertos de la industria consideran su partida como una pérdida importante para Google.

En abril de 2022, Google propuso los Modelos de Difusión de Vídeo (Video Diffusion Models), y reportó por primera vez los resultados del modelo de difusión generando vídeos a partir de texto (con buenos resultados). Mohammad Norouzi y Jonathan Ho son los autores principales del artículo.

Jonathan Ho es también uno de los trabajos fundadores del modelo de difusión y propuso el modelo de difusión de eliminación de ruido Modelos probabilísticos de difusión de eliminación de ruido. (Curiosamente, uno de los coautores, Pieter Abbeel, también es inversor en esta empresa).

Chitwan Saharia dirigió el trabajo sobre modelos de difusión de imagen a imagen en Google. Además de su trabajo en modelos de difusión, Willian Chan trabajó en reconocimiento neuronal del habla mientras estaba en Google, trabajando con Mohammad Norouzi en WaveGrad para síntesis de voz.

Quizás debido a las preocupaciones de Google sobre seguridad y ética, necesita hacer más regulaciones para elegir si abre Imagen e Imagen Video de código abierto, estos pilares decidieron abandonar el negocio.

"Estamos superando los límites de la inteligencia artificial, centrándonos en la creatividad y altos estándares de confianza y seguridad", concluyó el anuncio oficial.

Captura de pantalla del sitio web oficial

El mismo día, la compañía también anunció que había recaudado un total de 16,5 millones de dólares en financiación inicial liderada por a16z e Index Ventures. En esta ronda de inversión también participaron varios pilares de la industria de renombre.

Por ejemplo, Ryan Dahl, padre de Node.js, Raquel Urtasun, científica jefe de Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, fundador de GitHub.

Al mismo tiempo, la compañía también anunció el inicio de la versión beta pública de v0.1. Nosotros también lo experimentamos simplemente. Actualmente solo se brinda el servicio de generación de imágenes a partir de texto. El funcionamiento es muy sencillo, simplemente ingrese sus requisitos y luego seleccione el estilo y proporción de la imagen generada.

La capacidad de comprender el sistema sigue siendo buena, especialmente la comprensión del texto que debe generarse en la imagen. La desventaja es que la velocidad de respuesta es relativamente lenta, las instrucciones chinas no se pueden entender y es necesario mejorar la comprensión espacial de la composición.

página de operación

"Ponyo sumergiéndose en la leche con delfines", la IA parece incapaz de entender la "leche" en el comando, pero dio la imagen según su propio entendimiento (mar).

Cambiamos la entrada: "Elon Musk toma de la mano a Lisa (blackpink) en un auto Tesla, (cinemática)"

Básicamente correcto. Es solo que ambas tienen un problema con sus caras ¿Esta es Lisa?

Deje que Musk viaje y pruebe el estilo Hanfu, y el resultado es realmente un héroe.

「Elon Musk con el pelo largo y vestido con ropa tradicional china, foto」

"Blackpink Jennie pero muy gorda, foto." Sí, se ve así después de ganar peso.

Echemos un vistazo a los resultados de algunos usuarios de Twitter. Incluso si es necesario generar algún texto en la imagen generada, el sistema puede hacerlo.

Ejemplo: 「Un adorable minion sosteniendo un cartel que dice 『Se acabó, mitad del viaje』, escrito exactamente, renderizado 3D, tipografía」

Los amigos de Twitter dijeron que, si bien el sistema no siempre podía escribir correctamente, la tasa de éxito era buena.

「Un pikachu lindo y esponjoso parado sobre una luna grande y esponjosa, sosteniendo un letrero de neón que dice "a la luna", renderizado 3d」

Entre las películas estrenadas recientemente, tanto "Barbie" como "Oppenheimer" han llamado más la atención. Los usuarios de Twitter solicitaron generar un diseño de cartel de película sobre "Barbenheimer (Barbenheimer)", haciendo referencia a Barbie y las armas nucleares con estilo. El efecto es el siguiente.

Aunque es probable que la información de la película aparezca después de la fecha límite de capacitación, el sistema aún maneja bien esta palabra compuesta. Además, viejo problema, las caras de los personajes no son lo suficientemente buenas.

「Palabra 『surrealista』 escrita y representada en una pintura surrealista al estilo Dali, tipografía」

「un muñeco de nieve derritiéndose en un volcán」

「Word 『NVIDIA 』renderizado en tipografía de circuito de chip GPU, cyperpunk, ciencia ficción」

「Hermosa niña en el cuadro de Dalí, con una leyenda『Stanford』, tipografía」

Un elegante gato ragdoll con gafas de sol Gucci sosteniendo un cartel que dice Feliz Domingo, fondo negro, póster

Hay 4 objetos en la escena. Una pirámide roja se encuentra encima de un cubo azul. Una esfera amarilla se encuentra debajo del cubo azul. A la izquierda de la pirámide hay un hexágono de mármol, con el cubo azul en la parte superior.

Parece que la comprensión actual del sistema sobre la composición y el espacio no está en su lugar.

Muestra de trabajos en otras páginas de inicio.

Enlace comestible:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta

Recompensa
2
1
Compartir

Comentar

0/400

GateUser-bcf7bb63

· 2023-12-19 01:44

Cómo registrar esto, vi que no hay tokens, ¿es necesario registrarse para obtener puntos?

Ver originalesResponder0

Tema
ETH Breaks $3600
19k Popularidad
Gate Derivatives Volume Hits New High
18k Popularidad
CPI Data Incoming
32k Popularidad
4Join Gate VIP to Win MacBook
31k Popularidad
5MicroStrategy Buys More Bitcoin
3k Popularidad
6BTC Hits New High
95k Popularidad
7My Gate Moments
28k Popularidad
8VIP Exclusive Airdrop Carnival
27k Popularidad
9Fed June Meeting Minutes
7k Popularidad
10Trump Tariff Hikes
18k Popularidad

Anclado