Midjourney CEO: AI deve ser uma extensão de nós mesmos

Tencent Technology News Em 7 de julho, o CEO da Midjourney, David Holz, fez um discurso na Conferência Mundial de Inteligência Artificial de 2023, argumentando que A IA se tornará uma nova transportadora e motor de criatividade e imaginação. Por meio da IA, temos o potencial de ampliar a imaginação bruta de toda a raça humana. Em relação ao nome da empresa Midjouney, Holz afirmou que vem do conceito de meio termo no livro taoísta "Zhuang Zhou" Ele acredita que a literatura clássica chinesa trouxe muitos dos mais belos e profundos pensamentos.

No momento, Midjouney está desenvolvendo a versão 5.3 e fornecerá uma série de recursos de zoom e panorâmica para gerar automaticamente novas imagens relacionadas a diferentes ângulos na versão 6 e pode controlar a aleatoriedade das imagens geradas, permitindo que o autor seja estranho. equilíbrio entre a beleza e as imagens desconcertantes. No futuro, a Midjourney pretende desenvolver imagens tridimensionais, em tempo real e dinamicamente ajustáveis.

Quanto ao futuro da tecnologia, ele não tem certeza de onde isso pode chegar. Mas o modelo de fusão (modelo de imagem/texto para fusão) pode ser uma direção de desenvolvimento mais provável. Ele acredita que o potencial do progresso tecnológico da IA não foi totalmente realizado, e é dez vezes mais forte do que é agora, e cem vezes o progresso é inevitável.

Ele acredita que a maior parte do progresso da tecnologia até agora veio da tentativa de tornar as pessoas melhores, tentando ampliar as capacidades humanas. Portanto, a AGI pode não ser necessária. Como uma extensão de nossos seres humanos, a IA é a melhor escolha para capacitar os seres humanos.

O seguinte é a transcrição do discurso:

Olá a todos, sou David Holz, CEO e fundador da Midjourney. Tenho a honra de ser convidado pelo Governo Municipal de Xangai para participar da Conferência Mundial sobre Inteligência Artificial e estou ansioso para participar do evento de hoje.

Uma das tecnologias mais importantes do mundo é o motor. Um motor é uma máquina usada para gerar, transferir ou amplificar. Usamos motores para construir todos os tipos de veículos, como carros, aviões e barcos em várias fábricas. E agora é hora de pensar na IA como um novo tipo de mecanismo.

Na MidJourney, estamos tentando usar esse motor para criar um novo tipo de veículo, que não é um veículo, mas um veículo que carrega nosso pensamento e imaginação.

Como você pode virar o mundo com uma bola de futebol, mas ainda precisa de pernas para chutá-la. Esperamos criar um novo tipo de veículo que você possa usar para imaginar, não apenas gerar movimento. Antes de podermos criar, devemos primeiro imaginar o que podemos ser, aonde podemos ir, o que é possível. Acho que as ferramentas que fazemos, mais do que qualquer outra coisa, são focadas em amplificar o poder primordial da imaginação. Temos a oportunidade de ampliar não apenas um indivíduo individual, mas a imaginação de toda a raça humana. Já visitei a China muitas vezes com o Leap Motion (um dispositivo de reconhecimento de gestos), e o primeiro escritório da Leap Motion fica em Xangai. Xangai tem uma sensação especial que eu gosto muito, parece ser uma combinação de São Francisco, Los Angeles, Nova York e algumas cidades europeias antigas. Tem a força de uma história e cultura antigas, mas também tem um senso de futuro não refinado. É muito legal, e são duas das minhas coisas favoritas.

Na verdade, sou basicamente um ávido leitor de ficção científica, e os cenários mais malucos que já vi vêm de clássicos chineses. Acho que a literatura chinesa antiga tem os pensamentos mais belos e profundos da história humana. O nome MidJourney na verdade vem de uma tradução de um dos meus textos taoístas antigos favoritos, de Zhuang Zhou. Por exemplo, "Zhuang Zhou's Dream of a Butterfly", "Zi Fei Yu", "Paod Ding Jie Niu", "Wood of Unworthy Wood", "Empty Boat", eu gosto disso. O que eu gosto no nome MidJourney é que acho que as pessoas às vezes tendem a esquecer o passado e podem se sentir perdidas e incertas sobre o futuro. Mas sinto mais que estamos no meio do caminho, viemos de um passado rico e bonito e temos um futuro selvagem e incrível pela frente.

Lançamos recentemente a versão 5.2 do Mid Journey e atualmente estamos trabalhando na versão 5.3. **Depois espero lançar uma grande atualização, que espero que se chame versão 6. O recurso mais recente que apresentamos é sobre dimensionamento de imagem e, conforme você diminui o zoom, pode criar diferentes histórias e ambientes que mudam em torno de um tema central. Esta semana, estamos lançando um recurso semelhante que permite mover a câmera e, ao mover a câmera para o lado, você pode continuar mudando a sugestão e contar a história, e estamos lançando este sofisticado sistema de controle que combina esses novos recursos para um melhor controle fino sobre a geração de imagens.

Você também pode combinar isso com controles de estilo. "Controle de estilo" é um pouco confuso, mas a ideia é que você queira dizer à IA o quão bonito você deseja gerá-lo e quanto risco você corre para criar essa beleza. Mesmo que não seja convencional, confuso e estranho, às vezes os resultados são realmente notáveis.

Às vezes você precisa ser aventureiro, e isso permite controlar o equilíbrio entre o risco e a aleatoriedade da beleza, ou quanta atenção é dada à beleza geral geral de uma imagem. Também introduzimos algo que chamamos de modo turbo. O modo turbo é onde usamos o GPU o máximo possível, tornando a geração de imagem muito rápida. Isso torna a geração 4 a 5 vezes mais rápida. Este modo faz parecer que você está usando 64 ou mais de 100 GPUs para gerar imagens. Para atingir esse poder de computação, seu computador deve valer cerca de 500.000 dólares americanos. Isso parece meio louco, e estamos trabalhando em outros ainda mais loucos. Embora a maioria deles ainda esteja em desenvolvimento, acreditamos que, com o tempo, o Midjourney evoluirá para criar não apenas imagens 2D, mas imagens 3D, imagens em movimento e você poderá até interagir com os próprios pixels. No futuro, talvez você consiga refluir e remodelar o que desenha em tempo real.

Um só precisa de um processador AI tão grande, e então ele pode sonhar com todos os mundos diferentes, e os sonhos podem interagir com nossas mentes. E estamos meio que sonhando com isso (AI), e isso vai ser muito legal. A descoberta sequencial do modelo Diffusion, modelo Transformer e modelo Clip realmente permitiu que a IA entrasse no espaço da imagem. Cerca de 2 anos atrás, antes de qualquer serviço de IA de imagem ser lançado, todos os nossos pesquisadores estavam se comunicando em San Francisco. Lembro-me de dizer que esses modelos, especialmente o modelo Diffusion, definitivamente trariam algo completamente diferente. Há também a tecnologia de rede de confrontação generativa, que é a tecnologia básica que todos usaram para fazer a geração de imagens antes.

Só me lembro de todos imediatamente balançando a cabeça de uma forma incomum, dizendo que o modelo Diffusion era realmente diferente. Foi um momento muito sério e tive um forte sentimento de que precisava me envolver e trazer uma interface de usuário mais humana para essa tecnologia.

Mas em relação ao futuro, é difícil saber ao certo como a tecnologia se desenvolverá. Às vezes falamos sobre como transformar o modelo de linguagem para o modelo Diffusion agora, ou seja, usar o modelo Diffusion para fazer texto. Ou o modelo de imagem se tornará mais como um modelo de linguagem. Como isso é alcançado? O termo técnico para essa abordagem é transformador autorregressivo, ou a IA se desenvolverá em direção a um modelo híbrido. Mas é realmente difícil dizer. Acho que estamos apenas no começo dessa mudança, mas tenho 100% de certeza de que há muito progresso a ser feito. É provável que uma melhoria de dez ou cem vezes seja inevitável.

Esse avanço não está apenas no desempenho, mas em interfaces de usuário e produtos que nos permitem usar melhor essas tecnologias. Tanto individual quanto coletivamente podem fazer coisas realmente legais que resolvem melhor os problemas. Douglas Engelbart foi a primeira pessoa a criar um editor de texto. Inicialmente, os computadores eram programados perfurando cartões ou fazendo furos nos cartões. Mas Douglas começou a pensar no que aconteceria se programássemos computadores, o que parecia loucura na época. Sua ideia era que, programando computadores em computadores, poderíamos acelerar esse ciclo, melhorar o que fazemos, tornar os computadores mais poderosos, amplificar tudo. Essa ideia finalmente se tornou realidade. Embora tenhamos essas culturas diferentes, como IA, interface homem-máquina, cultura de aplicativos inteligentes, acho que a maior parte do progresso da tecnologia até agora veio da tentativa de melhorar as pessoas, da tentativa de ampliar as capacidades humanas.

Nós realmente não vimos a era da IA chegando, onde teremos IA independente resolvendo problemas. Mas se pensarmos muito em seguir nessa direção, podemos perder muitas das oportunidades que existem na tecnologia. Eu penso não apenas no que a IA pode fazer, mas em como criar fluidez e emaranhamento entre coisas diferentes. Porque uma ferramenta não deve parecer uma pessoa, deve parecer uma extensão de você, seu corpo, sua mente. Estou pensando em como construir essas tecnologias onde os humanos e a IA se entrelaçam para que não pareça que você está colaborando com um artista, mas mais como se você estivesse imaginando algo e está na tela. Muitas pessoas descrevem minha jornada como se esses destinos fizessem parte de seus pensamentos. Acho que é assim que a maioria da IA deveria ser, deveria ser uma extensão de nós mesmos.

Então, quero agradecer novamente ao Sr. Chen e a todo o público. O WAIC é muito legal e espero poder comparecer pessoalmente no futuro e fazer parte deste evento. Estou ansioso por mais cooperação com a China, lembro-me de todas as experiências pessoais maravilhosas que tive lá e espero que todos possam aproveitar a diversão de interagir lá também. Obrigado.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)