Modelo de grande escala multimodal de layout: a equipe da Universidade de Tsinghua completou quase 100 milhões de yuans em financiamento de rodada de anjo, liderado por Ant

Autor: O Papel

Repórter Shao Wen

A Shengshu Technology foi criada em março de 2023. Os membros principais são principalmente da Escola de Inteligência Artificial da Universidade de Tsinghua. É uma das primeiras equipes na China a implantar modelos gerais multimodais em grande escala. Esta rodada de financiamento foi liderada pelo Ant Group, seguido pela Baidu Ventures e Zhuoyuan Capital, com avaliação atual de US$ 100 milhões.

Existem novas tendências no desenvolvimento de modelos domésticos multimodais de grande escala. Em 19 de junho, uma nova equipe liderada por Zhu Jun, professor de ciência da computação na Universidade de Tsinghua e vice-presidente do Instituto de Inteligência Artificial, concluiu uma rodada de financiamento de quase 100 milhões de yuans.

Pengpai Technology (aprendi que esta empresa startup multimodal de modelo em grande escala chamada Beijing Shengshu Technology Co., Ltd. (doravante denominada "Shengshu Technology") anunciou a conclusão de uma rodada de financiamento de quase 100 milhões de yuans. O investimento foi liderado pelo Ant Group. Seguido pela Baidu Ventures e Zhuoyuan Capital, a avaliação atual é de 100 milhões de dólares americanos. Esta rodada de financiamento será usada principalmente para a construção da equipe central de P&D e acelerar o desenvolvimento de grandes modelos em escala e produtos de aplicação.

Um grande modelo multimodal refere-se a um modelo que combina informações multimodais como texto, imagem, vídeo e áudio para treinamento. Anteriormente, o cofundador da OpenAI, Ilya Sutskever (Ilya Sutskever), disse uma vez: "O objetivo de longo prazo da inteligência artificial é construir uma rede neural multimodal, ou seja, a IA pode aprender conceitos entre diferentes modalidades, para entender melhor o mundo ".​​​​​

Geração de imagem suportada pelo modelo Shengshu.

A Shengshu Technology foi criada em março de 2023. Foi incubada em conjunto pela Beijing Ruilai Smart Technology Co., Ltd., Ant Group e Baidu Venture Capital. É usada para criar um grande modelo multimodal controlável de uso geral. É relatado que esta é a primeira vez que o Ant Group investe em uma empresa modelo em grande escala após a popularidade do ChatGPT, e também é o segundo empreendimento de Zhu Jun após Ruilai Wisdom. A Ruilai Wisdom é uma provedora de infraestrutura e soluções de inteligência artificial.

Os principais membros da equipe Shengshu Technology vêm do Instituto de Inteligência Artificial da Universidade de Tsinghua, principalmente o grupo de pesquisa liderado por Zhu Jun. O grupo de pesquisa está comprometido com a teoria básica e a pesquisa eficiente de algoritmos de aprendizado de máquina bayesiano e é uma das primeiras equipes do mundo a estudar modelos generativos probabilísticos profundos. Em janeiro de 2022, o framework de raciocínio sem treinamento Analytic-DPM proposto pela equipe foi aplicado à estratégia de processamento do modelo DALL E 2 pela OpenAI. Em seguida, foi proposto o algoritmo de amostragem DPM-Solver, que agora é a geração de imagens mais rápida do mundo algoritmo por difusão estável e outros grandes números de Adotado por projetos de código aberto.

Modifique os elementos da tela no vídeo (aviso: um cisne de cristal Swarovski está nadando em um rio), o vídeo original na extrema esquerda, o efeito da tecnologia digital no meio e o efeito Runway na extrema direita.

Segundo relatos, a Shengshu Technology é uma das primeiras equipes na China a criar modelos multimodais de uso geral em larga escala. Ela abriu o código do primeiro UniDiffuser de modelo de difusão multimodal baseado em transformador do mundo no início de 2023. Conclua várias tarefas de geração, como geração de texto com base em imagem, geração conjunta de imagem e texto e reescrita de imagem e texto.

O modelo Transformer foi lançado por uma equipe do Google em 2017. É um modelo de aprendizado profundo que pode atribuir diferentes pesos de acordo com a importância de cada parte dos dados de entrada. Este modelo é usado principalmente nas áreas de processamento de linguagem natural (NLP) e visão computacional (CV). Atualmente, os principais modelos de grande porte, como o GPT, são desenvolvidos com base no Transformer.

"No geral, a ideia atual de fazer modelos de geração de imagens em larga escala na indústria é a mesma, e todas são baseadas no modelo de difusão. Nossa inovação está em modificar a rede principal subjacente. É o primeiro a usar o Transformer na tecnologia Diffusion Model para alcançar a atitude multimodo." Tang Jiayu disse recentemente em uma entrevista à mídia.

Tang Jiayu acredita que os modelos e produtos no mercado nesta fase apenas resolvem o problema de generabilidade na fase inicial, mas os resultados gerados ainda apresentam grande incerteza e incontrolabilidade. Ainda existem grandes deficiências, por exemplo, é difícil controlam a posição e os detalhes dos elementos na imagem gerada, e o modelo 3D gerado ainda está em um nível relativamente baixo em termos de finura de superfície e precisão de cor, luz e sombra.

Geração de conteúdo 3D (dica: uma foto DSLR de um gaio azul em pé sobre uma grande cesta de macarons arco-íris).

A Shengshu Technology apresentou à Pengpai Technology que, em termos de geração de conteúdo 3D, desenvolveu a primeira tecnologia do setor para gerar conteúdo 3D automaticamente com base em três visualizações, e a tecnologia de conteúdo 3D Wensheng que não requer nenhum dado de treinamento 3D e o efeito pode ser finamente detalhado , pode estar próximo de aplicativos de nível industrial, "O modelo grande treinado superou a versão mais recente do modelo básico de Stable Diffusion em termos de geração de imagem e espera-se que alcance a versão mais recente do Midjourney neste ano ."

O Stable Diffusion é um modelo de geração de texto para imagem desenvolvido pelas startups StabilityAI, CompVis e Runway. Foi lançado em 2022 e agora é de código aberto. Midjourney é uma ferramenta de geração de texto para imagem lançada em março de 2022. Ela passou por várias iterações e entrou no estágio beta público. Seus efeitos realistas geraram discussões acaloradas na Internet chinesa. Stable Diffusion e Midjourney são ferramentas de IA líderes do setor e altamente avaliadas em todo o mundo.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)