"Nada de arte, só física! A física faz você feliz, não é?"
Recentemente, na conferência mundial de computação gráfica SIGGRAPH 2023, o fundador e CEO da Nvidia, Huang Renxun, anunciou que quando combinou IA generativa com a plataforma de simulação Omniverse, ficou tão empolgado quanto anunciou que "AIGC é o momento do iPhone".
**Diferente dos grandes modelos de linguagem que só podem ser aplicados a gráficos e texto, com uma plataforma de simulação baseada em leis físicas, a IA generativa pode ser usada diretamente no mundo real. **
Além de Huang Renxun, a equipe de Li Feifei na Universidade de Stanford, nos Estados Unidos, também integrou recentemente grandes modelos em robôs, que não apenas permitem que os robôs interajam efetivamente com o ambiente, mas também concluam várias tarefas sem dados e treinamento adicionais.
** "A IA generativa baseada na simulação do mundo físico é a IA generativa 2.0", disse Jia Kui, fundador da Kuawei Intelligence e professor da South China University of Technology, à Light Cone Intelligence que a combinação de IA generativa e a inteligência incorporada desempenhará um papel importante. efeito mais determinista. **
Com o aprimoramento das capacidades gerais, espera-se também que a IA quebre a "maldição" da comercialização.
Quando a IA generativa aprende física
Combinar IA generativa com o mundo físico não é fácil e a cadeia técnica envolvida é muito longa.
**Antes de tudo, é necessário dominar as leis básicas do mundo físico para poder modelar o mundo real para a plataforma de simulação. **
A plataforma de simulação pode não apenas simular cenas físicas, mas também simular a interação, movimento e deformação de objetos no mundo real.
A adição de IA generativa permitirá que a plataforma de simulação tenha a capacidade de "pré-visualizar".
“Os humanos conhecem o senso comum da física desde a infância, mas a IA não o conhece.” Huang Renxun disse: “A combinação de IA generativa e plataforma de simulação é fazer com que o futuro da IA crie raízes na física”.
Huang Renxun explicou ainda que permite que a IA aprenda a perceber o ambiente no mundo virtual e entenda o impacto e as consequências do comportamento físico por meio do aprendizado por reforço, para que a IA possa atingir objetivos específicos.
**Isso requer o uso de IA generativa para prever dezenas de milhões ou mesmo centenas de milhões de possibilidades no mundo físico para formar dados sintéticos valiosos. **
Por exemplo, o braço robótico precisa usar os “olhos” da visão 3D para apreender com precisão, mas como eliminar a interferência das mudanças ambientais e reconhecer os objetos a serem apreendidos (como peças na fábrica)?
Por meio da plataforma de simulação, dominamos as leis físicas, como "o reflexo e a refração da luz no objeto da cena", e a IA generativa pode prever e simular uma garrafa com diferentes graus de reflexão sob diferentes iluminações de cena; sob a mesma iluminação , metal, O estado da superfície de objetos feitos de diferentes materiais, como plásticos e produtos de madeira; uma pilha de pregos, todos os possíveis estados dispersos...
** Novamente, todos os dados precisam ser executados na plataforma de simulação com IA. **
Esta etapa é treinar o modelo grande visual 3D. Diferente dos grandes modelos de linguagem, os grandes modelos visuais 3D são cruciais para entender e raciocinar sobre as características composicionais das cenas visuais e precisam lidar com relacionamentos complexos entre objetos, posições e mudanças no ambiente real.
**Finalmente, ele precisa ser conectado com hardware inteligente, como um braço robótico, para que possa aprender a operação inteligente. **
Pode-se ver que toda a cadeia técnica da combinação de IA generativa e o mundo físico envolve não apenas física, gráficos, visão computacional e robótica multidisciplinar, mas também gêmeos digitais, aprendizado profundo geométrico, cálculos cinemáticos, inteligência híbrida e inteligência Hardware e outras tecnologias de ponta multidimensionais.
Da mesma forma, a cadeia de todo o setor também é relativamente complexa, dos dados aos modelos e, depois, dos modelos à implantação.
Nesses links, existe um nó muito diferente do caminho anterior da IA, que é a "geração de dados sintéticos".
O uso de dados sintetizados por IA generativa com base em leis físicas para treinar grandes modelos trará uma revolução radical para a indústria física.
Sem foto real,
Treinamento de modelo visual 3D grande
Por que não treinar grandes modelos diretamente em dados reais?
Atualmente, a maioria dos braços robóticos baseados em visão 3D na indústria usa dados reais para o treinamento de algoritmos de seus sistemas de controle. Devido a questões como a privacidade comercial, esses dados reais são difíceis de obter em dados gerais, sendo basicamente coletados pelas próprias empresas.
**No entanto, dados reais auto-coletados, em primeiro lugar, o desempenho de custo é muito baixo em termos de "eficiência e custo", os dois principais indicadores de operação. **
Isso ocorre porque os cenários de aplicativos de terminal são fragmentados e os dados não podem ser usados universalmente. Para coletar dados reais, as empresas precisam coletar "tapete" de cada indústria, cada fábrica e cada cena. Além disso, os dados coletados não podem ser usados diretamente, sendo necessária uma série de processamentos.
Nesse processo, existe até um “paradoxo da inteligência artificial”.
"Coletando dados reais, mais da metade do custo da tecnologia de IA é o custo dos dados, e o processamento da coleta de dados, limpeza, rotulagem e aprimoramento geralmente é o resultado de uma grande quantidade de acúmulo de mão de obra." Alguns analistas apontaram, A essência da inteligência artificial é substituir a inteligência artificial. “A ironia é que essa IA tem características industriais óbvias de trabalho intensivo”.
E os dados sintéticos?
** "Usando os dados reais acumulados em cinco ou seis anos e milhares de casos, pode ser concluído em poucos dias e algumas semanas por meio de dados sintéticos." Jia Kui disse à Light Cone Intelligence que comparado com a coleta manual e rotulagem de dados , o custo dos dados sintéticos Uma redução de várias ordens de grandeza pode ser alcançada. **
**O mais importante é que, em termos de efeito de treinamento, os dados sintéticos podem ser melhores que os dados reais. **
Por ser sintetizado com base em leis físicas, os dados sintéticos nascem com anotações absolutamente precisas, o que significa que o aprendizado de IA é muito eficiente.
Além disso, a "compreensibilidade" dos dados sintéticos é incomparável com os dados reais. “A IA 2.0 generativa pode criar incontáveis mundos e pode fazer com que esse mundo evolua rapidamente”, disse Jia Kui.
**Quando se trata da indústria de visão 3D, o braço robótico é como a "mão de Deus", que pode controlar tudo no passado e no futuro. **
“Claro, isso não pode estar fora das leis do mundo físico.” Jia Kui enfatizou.
"Atualmente, podemos concluir o treinamento do modelo visual 3D do braço robótico para operações de cena complexas sem usar uma imagem real." Jia Kui disse à Lightcone Intelligence que a operação flexível do braço robótico pode ser guiada pelo modelo treinado inteiramente com materiais sintéticos dados, que podem realizar no local Mais de 99,9% de aderência estável.
É precisamente por isso que **dados sintéticos são chamados de "máquina de movimento perpétuo de dados" de grandes modelos. **
Atualmente, além do campo de visão 3D, muitos campos também estão tentando usar dados sintéticos devido a problemas como falta de dados gerais e alto ruído. No entanto, também existem fortes dúvidas sobre os dados sintéticos, dizendo que, se não forem cuidadosamente depurados e usados extensivamente durante o treinamento, farão com que o modelo falhe e cause defeitos irreversíveis.
Do ponto de vista da evolução tecnológica, os dados sintéticos não serão a única solução para grandes modelos.
No entanto, Jia Kui apontou, "Antes de encontrar uma maneira melhor, dados sintéticos são a melhor maneira de resolver problemas práticos no momento. Se dados reais empilhados por humanos ainda são usados, em muitos campos, incluindo visão 3D, AGI (General Artificial Intelligence ) inteligência) nunca será possível.”
Quebrando a "maldição" da comercialização da IA
No campo da visão de máquina, a demanda por dados sintéticos é maior, e o valor que a IA 2.0 generativa pode gerar será ainda maior.
Como um método de percepção muito importante da visão de máquina, a visão 3D tem uma necessidade urgente de dados sintéticos.
"Encontre a diferença" entre um monte de peças semelhantes e mude o material e a cor do objeto, e você precisará ajustar os parâmetros." Um praticante de visão 3D disse que as diferentes necessidades de diferentes campos tornam a cena de pouso muito fragmentada. Conclua um projeto e personalize novamente outro projeto.
Isso significa que é difícil para as empresas formar produtos padronizados concentrando-se na solução de um ou vários requisitos do projeto. Também é impossível entrar e expandir o mercado e buscar escala de lucro por meio de replicação rápida.
**O custo marginal é difícil de reduzir, o que transformará uma empresa de tecnologia em uma empresa de projeto e, eventualmente, a arrastará para baixo. **
O diabo está nos detalhes.
Quão frágil é a percepção visual 3D tradicional? Jia Kui descreveu à Light Cone Intelligence: "Durante o processo de preensão do braço robótico, se alguém passar e mudar a luz, a tarefa pode falhar."
Isso é causado pelo princípio de imagem da câmera 3D de hardware. A imagem da câmera 3D é facilmente afetada pelo ambiente, forma do objeto, material, cor, meio de dispersão, etc., e esse problema é difícil de resolver em um curto espaço de tempo.
"Pode levar cem passos para resolver um problema, mas o esforço no último passo pode ser o mesmo que a soma dos 99 passos anteriores." Yang Fan, co-fundador da SenseTime, disse uma vez que a maior parte da energia de a empresa precisa ser usada para lidar com peças pequenas Problema de cauda longa.
Mas agora, **“IA 2.0 generativa com forte versatilidade pode resolver o problema de cauda longa, que é muito importante para a padronização do produto”, disse Jia Kui. **
Em comparação com o modelo de desenvolvimento personalizado tradicional do setor, baseado na IA 2.0 generativa, as empresas podem usar o modelo geral de grande escala para realizar o desenvolvimento modular do produto, obter implantação pronta para uso e, em seguida, realizar a expansão direta no mesmo setor , e diferentes indústrias também podem reutilizar eficazmente. O problema de comercialização da indústria de visão 3D será facilmente resolvido.
Ao mesmo tempo, o custo de dados, desenvolvimento, implantação, hardware e expansão da indústria também caiu drasticamente em todos os elos.
Sob a catálise da IA 2.0 generativa, uma vez que a visão 3D exploda, isso significa que as cenas verticais que dependem fortemente da tecnologia de visão 3D, como braços robóticos, robôs, veículos não tripulados e metaversos, acelerarão para consumir o dividendo da IA.
Muitos dados confirmaram este ponto. Em campos como rotulagem de dados, dados sintéticos, robôs industriais e visão de máquina, o tamanho do mercado global está crescendo em alta velocidade, especialmente a taxa de crescimento anual composta de dados sintéticos excede 30% .
Por trás disso está, na verdade, o valor estratégico da IA 2.0 generativa, que tem sido altamente valorizada pela tecnologia e por muitos gigantes da manufatura.
De empresas de manufatura estabelecidas, como Siemens e Ford, a gigantes da tecnologia, como Nvidia, Tesla, Google e start-ups famosas, como Waabi, todas começaram a trabalhar em muitos campos, como indústria, robótica, direção autônoma, assistência médica e varejo. Explore as maiores possibilidades da IA 2.0 generativa.
Ao mesmo tempo, o entusiasmo do capital também foi muito mobilizado. De acordo com estatísticas incompletas, nos últimos anos, o financiamento estrangeiro relacionado a dados sintéticos acumulou cerca de 800 milhões de dólares americanos.
Na China, empresas ligadas a dados sintéticos também têm atraído a atenção do capital. Em junho de 2022, a Kuowei Smart anunciou a conclusão da rodada de financiamento Pré-A, com um valor de financiamento de dezenas de milhões de yuans e um financiamento cumulativo de quase 100 milhões de yuans em menos de um ano desde a sua criação; em julho deste ano, Guanglun Smart também anunciou a conclusão do anjo + rodada de financiamento. O valor acumulado do financiamento é de dezenas de milhões de yuans.
**Pode-se dizer que, desde a capacidade de compor poesia até o aprendizado da física, a IA 2.0 generativa está abrindo um grande futuro para a digitalização industrial. **
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
AIGC lança "magia física", a visão 3D rompe o "limite de precisão"
Fonte original: Light Cone Intelligence
Autor: Yao Yue
"Nada de arte, só física! A física faz você feliz, não é?"
Recentemente, na conferência mundial de computação gráfica SIGGRAPH 2023, o fundador e CEO da Nvidia, Huang Renxun, anunciou que quando combinou IA generativa com a plataforma de simulação Omniverse, ficou tão empolgado quanto anunciou que "AIGC é o momento do iPhone".
**Diferente dos grandes modelos de linguagem que só podem ser aplicados a gráficos e texto, com uma plataforma de simulação baseada em leis físicas, a IA generativa pode ser usada diretamente no mundo real. **
Com o aprimoramento das capacidades gerais, espera-se também que a IA quebre a "maldição" da comercialização.
Quando a IA generativa aprende física
Combinar IA generativa com o mundo físico não é fácil e a cadeia técnica envolvida é muito longa.
**Antes de tudo, é necessário dominar as leis básicas do mundo físico para poder modelar o mundo real para a plataforma de simulação. **
A plataforma de simulação pode não apenas simular cenas físicas, mas também simular a interação, movimento e deformação de objetos no mundo real.
A adição de IA generativa permitirá que a plataforma de simulação tenha a capacidade de "pré-visualizar".
“Os humanos conhecem o senso comum da física desde a infância, mas a IA não o conhece.” Huang Renxun disse: “A combinação de IA generativa e plataforma de simulação é fazer com que o futuro da IA crie raízes na física”.
Huang Renxun explicou ainda que permite que a IA aprenda a perceber o ambiente no mundo virtual e entenda o impacto e as consequências do comportamento físico por meio do aprendizado por reforço, para que a IA possa atingir objetivos específicos.
**Isso requer o uso de IA generativa para prever dezenas de milhões ou mesmo centenas de milhões de possibilidades no mundo físico para formar dados sintéticos valiosos. **
Por exemplo, o braço robótico precisa usar os “olhos” da visão 3D para apreender com precisão, mas como eliminar a interferência das mudanças ambientais e reconhecer os objetos a serem apreendidos (como peças na fábrica)?
Por meio da plataforma de simulação, dominamos as leis físicas, como "o reflexo e a refração da luz no objeto da cena", e a IA generativa pode prever e simular uma garrafa com diferentes graus de reflexão sob diferentes iluminações de cena; sob a mesma iluminação , metal, O estado da superfície de objetos feitos de diferentes materiais, como plásticos e produtos de madeira; uma pilha de pregos, todos os possíveis estados dispersos...
Esta etapa é treinar o modelo grande visual 3D. Diferente dos grandes modelos de linguagem, os grandes modelos visuais 3D são cruciais para entender e raciocinar sobre as características composicionais das cenas visuais e precisam lidar com relacionamentos complexos entre objetos, posições e mudanças no ambiente real.
Pode-se ver que toda a cadeia técnica da combinação de IA generativa e o mundo físico envolve não apenas física, gráficos, visão computacional e robótica multidisciplinar, mas também gêmeos digitais, aprendizado profundo geométrico, cálculos cinemáticos, inteligência híbrida e inteligência Hardware e outras tecnologias de ponta multidimensionais.
Da mesma forma, a cadeia de todo o setor também é relativamente complexa, dos dados aos modelos e, depois, dos modelos à implantação.
O uso de dados sintetizados por IA generativa com base em leis físicas para treinar grandes modelos trará uma revolução radical para a indústria física.
Sem foto real,
Treinamento de modelo visual 3D grande
Por que não treinar grandes modelos diretamente em dados reais?
Atualmente, a maioria dos braços robóticos baseados em visão 3D na indústria usa dados reais para o treinamento de algoritmos de seus sistemas de controle. Devido a questões como a privacidade comercial, esses dados reais são difíceis de obter em dados gerais, sendo basicamente coletados pelas próprias empresas.
**No entanto, dados reais auto-coletados, em primeiro lugar, o desempenho de custo é muito baixo em termos de "eficiência e custo", os dois principais indicadores de operação. **
Isso ocorre porque os cenários de aplicativos de terminal são fragmentados e os dados não podem ser usados universalmente. Para coletar dados reais, as empresas precisam coletar "tapete" de cada indústria, cada fábrica e cada cena. Além disso, os dados coletados não podem ser usados diretamente, sendo necessária uma série de processamentos.
Nesse processo, existe até um “paradoxo da inteligência artificial”.
"Coletando dados reais, mais da metade do custo da tecnologia de IA é o custo dos dados, e o processamento da coleta de dados, limpeza, rotulagem e aprimoramento geralmente é o resultado de uma grande quantidade de acúmulo de mão de obra." Alguns analistas apontaram, A essência da inteligência artificial é substituir a inteligência artificial. “A ironia é que essa IA tem características industriais óbvias de trabalho intensivo”.
E os dados sintéticos?
** "Usando os dados reais acumulados em cinco ou seis anos e milhares de casos, pode ser concluído em poucos dias e algumas semanas por meio de dados sintéticos." Jia Kui disse à Light Cone Intelligence que comparado com a coleta manual e rotulagem de dados , o custo dos dados sintéticos Uma redução de várias ordens de grandeza pode ser alcançada. **
**O mais importante é que, em termos de efeito de treinamento, os dados sintéticos podem ser melhores que os dados reais. **
Por ser sintetizado com base em leis físicas, os dados sintéticos nascem com anotações absolutamente precisas, o que significa que o aprendizado de IA é muito eficiente.
Além disso, a "compreensibilidade" dos dados sintéticos é incomparável com os dados reais. “A IA 2.0 generativa pode criar incontáveis mundos e pode fazer com que esse mundo evolua rapidamente”, disse Jia Kui.
**Quando se trata da indústria de visão 3D, o braço robótico é como a "mão de Deus", que pode controlar tudo no passado e no futuro. **
“Claro, isso não pode estar fora das leis do mundo físico.” Jia Kui enfatizou.
É precisamente por isso que **dados sintéticos são chamados de "máquina de movimento perpétuo de dados" de grandes modelos. **
Atualmente, além do campo de visão 3D, muitos campos também estão tentando usar dados sintéticos devido a problemas como falta de dados gerais e alto ruído. No entanto, também existem fortes dúvidas sobre os dados sintéticos, dizendo que, se não forem cuidadosamente depurados e usados extensivamente durante o treinamento, farão com que o modelo falhe e cause defeitos irreversíveis.
Do ponto de vista da evolução tecnológica, os dados sintéticos não serão a única solução para grandes modelos.
No entanto, Jia Kui apontou, "Antes de encontrar uma maneira melhor, dados sintéticos são a melhor maneira de resolver problemas práticos no momento. Se dados reais empilhados por humanos ainda são usados, em muitos campos, incluindo visão 3D, AGI (General Artificial Intelligence ) inteligência) nunca será possível.”
Quebrando a "maldição" da comercialização da IA
No campo da visão de máquina, a demanda por dados sintéticos é maior, e o valor que a IA 2.0 generativa pode gerar será ainda maior.
Como um método de percepção muito importante da visão de máquina, a visão 3D tem uma necessidade urgente de dados sintéticos.
"Encontre a diferença" entre um monte de peças semelhantes e mude o material e a cor do objeto, e você precisará ajustar os parâmetros." Um praticante de visão 3D disse que as diferentes necessidades de diferentes campos tornam a cena de pouso muito fragmentada. Conclua um projeto e personalize novamente outro projeto.
**O custo marginal é difícil de reduzir, o que transformará uma empresa de tecnologia em uma empresa de projeto e, eventualmente, a arrastará para baixo. **
O diabo está nos detalhes.
Quão frágil é a percepção visual 3D tradicional? Jia Kui descreveu à Light Cone Intelligence: "Durante o processo de preensão do braço robótico, se alguém passar e mudar a luz, a tarefa pode falhar."
Isso é causado pelo princípio de imagem da câmera 3D de hardware. A imagem da câmera 3D é facilmente afetada pelo ambiente, forma do objeto, material, cor, meio de dispersão, etc., e esse problema é difícil de resolver em um curto espaço de tempo.
"Pode levar cem passos para resolver um problema, mas o esforço no último passo pode ser o mesmo que a soma dos 99 passos anteriores." Yang Fan, co-fundador da SenseTime, disse uma vez que a maior parte da energia de a empresa precisa ser usada para lidar com peças pequenas Problema de cauda longa.
Mas agora, **“IA 2.0 generativa com forte versatilidade pode resolver o problema de cauda longa, que é muito importante para a padronização do produto”, disse Jia Kui. **
Ao mesmo tempo, o custo de dados, desenvolvimento, implantação, hardware e expansão da indústria também caiu drasticamente em todos os elos.
Sob a catálise da IA 2.0 generativa, uma vez que a visão 3D exploda, isso significa que as cenas verticais que dependem fortemente da tecnologia de visão 3D, como braços robóticos, robôs, veículos não tripulados e metaversos, acelerarão para consumir o dividendo da IA.
De empresas de manufatura estabelecidas, como Siemens e Ford, a gigantes da tecnologia, como Nvidia, Tesla, Google e start-ups famosas, como Waabi, todas começaram a trabalhar em muitos campos, como indústria, robótica, direção autônoma, assistência médica e varejo. Explore as maiores possibilidades da IA 2.0 generativa.
Ao mesmo tempo, o entusiasmo do capital também foi muito mobilizado. De acordo com estatísticas incompletas, nos últimos anos, o financiamento estrangeiro relacionado a dados sintéticos acumulou cerca de 800 milhões de dólares americanos.
Na China, empresas ligadas a dados sintéticos também têm atraído a atenção do capital. Em junho de 2022, a Kuowei Smart anunciou a conclusão da rodada de financiamento Pré-A, com um valor de financiamento de dezenas de milhões de yuans e um financiamento cumulativo de quase 100 milhões de yuans em menos de um ano desde a sua criação; em julho deste ano, Guanglun Smart também anunciou a conclusão do anjo + rodada de financiamento. O valor acumulado do financiamento é de dezenas de milhões de yuans.
**Pode-se dizer que, desde a capacidade de compor poesia até o aprendizado da física, a IA 2.0 generativa está abrindo um grande futuro para a digitalização industrial. **