O Laboratório de Inteligência Artificial de Xangai lança o modelo 3D de cena real do Shusheng·Tianji LandMark

2023-07-07 03:00:09

Fonte: O Papel See More

Repórter Wu Tianyi Estagiário Chen Xiaorui

Fonte da imagem: Gerada pela ferramenta Unbounded AI

·O primeiro modelo NeRF 3D em grande escala da vida real do mundo com 100 bilhões de parâmetros ·O Sky LandMark pode suportar várias funções de edição de cidades. Na demonstração, o Edifício Wukang pode usar a tecnologia NeRF para alterar seu estilo e efeitos de luz e sombra de acordo com diferentes períodos de tempo; o Palácio da Cultura Chinesa pode realizar rotação geral ou rotação de diferentes camadas.

· O Laboratório de Inteligência Artificial de Xangai lançou o sistema geral de modelo em grande escala para estudiosos, incluindo três modelos básicos de multimodalidade, Puyu e Tianji. Ao mesmo tempo, lançou o primeiro sistema de código aberto de cadeia completa para modelo em grande escala desenvolvimento e aplicação.

Em 6 de julho, na reunião plenária da Conferência Mundial de Inteligência Artificial (WAIC) Frontiers of Science de 2023, Lin Dahua, especialista em aprendizado profundo e ciência da computação, professor do Laboratório de Inteligência Artificial de Xangai e professor da Universidade Chinesa de Hong Kong, lançou um grande modelo 3D de cena real de Shusheng Tianji LandMark, e seu princípio técnico e aplicação funcional são introduzidos.

Lin Dahua disse que Shusheng·Tianji LandMark é o primeiro grande modelo NeRF 3D da vida real de 100 bilhões de parâmetros do mundo, que foi desenvolvido em conjunto pelo Laboratório de Inteligência Artificial de Xangai, Universidade Chinesa de Hong Kong e Instituto de Pesquisa e Mapeamento de Xangai. ) A capacidade da modelagem de campo de luz se estende desde o nível do objeto até o nível da cidade. Lin Dahua disse que o lançamento do Shusheng·Tianji LandMark é uma aplicação inovadora de grandes modelos, que "fornece a possibilidade técnica para realizarmos AIGC (conteúdo gerado por inteligência artificial) em nível de cidade no futuro".

O "Sistema Modelo Geral Shusheng" (doravante referido como "Modelo Grande Shusheng") também foi lançado pela primeira vez na conferência, incluindo três modelos básicos de Shusheng·Multimodal, Shusheng·Puyu e Shusheng·Tianji, bem como o primeiro sistema de código aberto de cadeia completa orientado a modelos em larga escala para P&D e aplicação.

De uma maçã para uma cidade inteira

“Além de gerar texto, o modelo grande também pode nos dar um mundo mais imaginativo.” Lin Dahua disse que o estudioso Tianji LandMark usa a tecnologia NeRF para fornecer mais possibilidades para a aplicação da tecnologia de modelo grande.

NeRF é um novo tipo de tecnologia de modelagem de campo de luz 3D, que foi proposto pela equipe de pesquisa do Google em março de 2020. Foi inicialmente aplicado à modelagem 3D e foi limitado ao nível de pequenos objetos (do tamanho de uma maçã) . “Mas achamos que a tecnologia NeRF é mais do que isso.” Lin Dahua disse: “Em 10 de dezembro de 2021, nossa equipe propôs pela primeira vez expandir a capacidade de modelagem de campo de luz NeRF do nível do objeto de uma pequena maçã para o nível da cidade. Esta é a primeira vez que estendemos os recursos da tecnologia NeRF de objetos para cidades. Ele disse que, depois que sua equipe de pesquisa propôs o NeRF em nível de cidade por um tempo, a Carnegie Mellon University e o Google lançaram suas respectivas tecnologias NeRF em nível de cidade .

Em 10 de dezembro de 2021, a equipe de Lin Dahua propôs pela primeira vez estender a capacidade de modelagem de campo de luz NeRF do nível do objeto de uma pequena maçã para o nível da cidade.

"Com base na tecnologia principal do NeRF em nível de cidade, estamos constantemente aprimorando sua escalabilidade e recursos." Lin Dahua apresentou que o grande modelo 3D da vida real de Shusheng·Tianji LandMark é baseado na tecnologia e algoritmo CT NeRF de segunda geração da equipe de pesquisa e suporta uma gama completa de renderização em tempo real de alta precisão, incluindo 200 bilhões de parâmetros, cobrindo 100 quilômetros quadrados, todos os detalhes na cena real suportam resolução de alta definição 4K.

O Real 3D é um espaço digital que reflete e expressa a produção humana, a vida e os espaços ecológicos reais, tridimensionais e sequenciados no tempo dentro de um determinado intervalo. Segundo relatos, Shusheng·Tianji LandMark integra algoritmos, operadores e sistemas de computação e propõe uma nova representação de modelo 3D do mundo real e paradigma de treinamento no nível do modelo. Ao treinar com eficiência, pode representar com precisão cenas urbanas 3D em grande escala, e Obtenha efeitos de renderização neural de alta qualidade. Ele assume a liderança em quatro aspectos: modelagem de alta precisão, renderização de alta precisão, escalabilidade funcional e integração de treinamento e interação.

Shusheng·Tianji LandMark também pode suportar funções como edição em nível de cidade e conversão de estilo. Na demonstração, o Edifício Wukang pode usar a tecnologia NeRF para alterar seu estilo e efeitos de luz e sombra de acordo com diferentes períodos de tempo; o Palácio da Cultura Chinesa pode realizar rotação geral ou rotação de diferentes camadas. “Isso oferece uma possibilidade técnica para nosso AIGC em nível de cidade no futuro”, disse Lin Dahua.

Várias partes do Palácio da Cultura Chinesa podem ser "rodadas".

Lin Dahua disse: "Espero que, por meio da nova tecnologia de geração de cena real 3D, possamos injetar nova imaginação e espaço de inovação em nosso futuro espaço urbano. No futuro, o Shanghai AI Lab expandirá o escopo e as funções de modelagem de Shusheng Tianji e Os algoritmos, operadores e sistemas de Shusheng Tianji são todos de código aberto.”

O primeiro sistema de modelo geral em larga escala para estudiosos

Na reunião, Lin Dahua também apresentou o sistema de modelo geral de grande escala para estudiosos, incluindo três modelos básicos de multimodal, Puyu e Tianji. Ao mesmo tempo, ele lançou o primeiro sistema de código aberto de cadeia completa para grandes desenvolvimento e aplicação de modelos em escala. Entre eles, o grande modelo multimodal tem 20 bilhões de parâmetros, suporta 3,5 milhões de tags semânticas e lidera o mundo em mais de 80 tarefas; o modelo grande da linguagem Pu é o primeiro grande modelo lançado oficialmente na China com 100 bilhões de parâmetros que suportam múltiplos línguas.

"O estudioso Puyu superou o LLaMA-7B (um modelo de linguagem de inteligência artificial desenvolvido pela equipe FAIR da Meta AI) em todas as dimensões." Lin Dahua disse que, como um modelo grande com centenas de bilhões de parâmetros, o Shusheng Puyu alcançou um alto nível de precisão em todas as dimensões. Ambos superam os melhores modelos de código aberto existentes na China.

Em 7 de junho deste ano, o Shanghai AI Lab e o SenseTime lançaram em conjunto o modelo de linguagem em grande escala de "Scholar·Puyu" em conjunto com a Universidade Chinesa de Hong Kong, a Universidade Fudan e a Universidade Jiaotong de Xangai. O modelo tem 104 bilhões de parâmetros e é um dos atuais grandes modelos de linguagem com centenas de bilhões de parâmetros. Ele é treinado com base em um conjunto de dados multilíngue de alta qualidade contendo 1,6 trilhão de Tokens.

Segundo relatos, desde sua estreia oficial em junho, o Scholar·Puyu passou por uma atualização abrangente em um mês, incluindo cinco aspectos. Primeiro, o comprimento da janela de contexto foi aumentado de 2K para 8K, o que permite entender longas entradas, desenvolver raciocínio complexo e realizar várias rodadas de diálogo de longo prazo; segundo, os recursos de expressão estruturada e multilíngue foram aprimorados fortalecido, a nova versão do modelo suporta mais de 20 idiomas e também pode resumir e apresentar informações complexas por meio de tabelas e gráficos; terceiro, os recursos multidimensionais foram amplamente aprimorados e o desempenho em 42 conjuntos de avaliação convencionais foi significativamente melhorou e o desempenho em 35 deles superou o ChatGPT; Em quarto lugar, a capacidade de lógica matemática melhorou significativamente e a capacidade matemática, como cálculo numérico, operação de funções e resolução de equações, foi bastante aprimorada. O desempenho no conjunto de avaliação matemática GSM8K aumentou de 62,9 para 73,2. Nas questões de múltipla escolha do vestibular de 2023, a taxa de precisão aumentou em mais de 70%; Quinto, os recursos de segurança e alinhamento foram significativamente aprimorados. Por meio de um ajuste fino de instrução mais eficaz, incluindo aprendizado por reforço baseado em feedback humano (RLHF), a nova versão do modelo pode seguir instruções humanas de forma mais confiável e a segurança também é óbvia.

"O valor final de todos os grandes modelos ainda é criar valor para a vida e a produção. O Laboratório de Inteligência Artificial de Xangai não apenas alcança avanços tecnológicos por meio da inovação, mas também está comprometido em promover a implementação dessas tecnologias em indústrias específicas." Lin Dahua disse na reunião.

Lin Dahua disse que, além do próprio modelo grande, a equipe também abriu o código de toda a cadeia de sistemas de ferramentas, cobrindo os cinco principais links de dados, pré-treinamento, ajuste fino, implantação e avaliação durante o desenvolvimento do grande "Através do sistema de ferramentas de código aberto, o modelo pode ser O valor foi totalmente utilizado. Acredito que o código aberto pode realmente ajudar os desenvolvedores a desenvolver e inovar com base em modelos grandes."

Segundo relatos, a versão oficial de código aberto é um InternLM-7B leve com 7 bilhões de parâmetros, que mostra desempenho excelente e equilibrado na avaliação full-dimensional, incluindo 40 conjuntos de avaliação, que está à frente dos modelos de código aberto existentes.

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 gostos

Recompensa
1
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
GT 2025 Q2 Burn Completed
7k Popularidade
Michael Saylor Hints at Buying BTC
7k Popularidade
BTC
30453k Popularidade
4contentstar
10720k Popularidade
5NADA
11186k Popularidade
6BOME
11565k Popularidade
7BTC
30453k Popularidade
8SMILE
9062k Popularidade
9比特币
13438k Popularidade

Pino