Disjuntor do jogo! As novas conquistas da NVIDIA em dados sintéticos: a criação de uma "máquina de movimento perpétuo de dados de treinamento" para robôs
Fonte original: Diário do Conselho de Inovação em Ciência e Tecnologia
Fonte da imagem: Gerado por Unbounded AI
Com a enorme demanda por dados de IA, os recursos de dados estão quase esgotados, então as empresas começaram a encontrar uma "nova maneira" de obter dados - "criar" dados por conta própria. No entanto, a maioria dos dados sintéticos anteriores foi usada para treinamento de modelos grandes de IA e, desta vez, a Nvidia criou um "celeiro de dados" para treinamento de robôs.
Em um novo artigo de pesquisa entre a NVIDIA e a Universidade do Texas em Austin, um sistema chamado "MimicGen" é descrito que pode gerar automaticamente conjuntos de dados de treinamento de robôs em grande escala com apenas um pequeno número de demonstrações humanas. Jim Fan, cientista sênior da Nvidia, disse que a empresa abrirá o código-fonte de tudo, incluindo os conjuntos de dados gerados.
Qual é a escala dos dados gerados? Usando 10 demonstrações humanas, MimicGen pode gerar 1000 exemplos de síntese; Com 200 demonstrações humanas, o MimicGen foi capaz de gerar diretamente 50.000 dados de treinamento em 18 tarefas e vários ambientes simulados.
E quanto ao conjunto de dados gerado?
MimicGen pode "evoluir" a mesma cena em diferentes estágios com base nos dados originais:
Ele também pode gerar diferentes conjuntos de dados em uma ampla gama de distribuições de redefinição de tarefas, incluindo montagem de itens, derramamento de café, limpeza de canecas e muito mais:
Capacidade de gerar diferentes demonstrações de novos braços robóticos:
Há também dados de treinamento para tarefas de longo prazo:
Dados de cenários do mundo real também estão disponíveis:
Notavelmente, os pesquisadores compararam dados gerados por diferentes conjuntos de dados de origem. No entanto, descobriram que os dois conjuntos de resultados eram comparáveis – sugerindo que "a qualidade dos dados pode não ser tão importante em mecanismos de dados em grande escala".
Não só isso, mas os pesquisadores compararam os dados gerados por 10 demonstrações humanas com 200 demonstrações humanas, e os resultados também não foram muito diferentes. Portanto, o artigo também admite que mais pesquisas são necessárias sobre se mais dados de apresentação humana causarão redundância e custos desnecessários de rotulagem de dados.
Por que você é tão obcecado por dados sintéticos? Além dos recursos limitados de dados de origem mencionados no início do artigo, a coleta de dados é extremamente cara e demorada, e com um sistema como o MimicGen, é possível gerar automaticamente conjuntos de dados ricos e em grande escala com apenas uma pequena quantidade de dados, abrangendo vários cenários, capacidades de objetos, braços robóticos e tarefas de longo prazo ou de alta precisão, tornando-se uma maneira eficaz de "aumentar o poder e a economia do aprendizado de robôs".
"Os dados sintéticos fornecerão o próximo trilhão de dados para nossos modelos 'famintos'. "Uma das principais razões pelas quais a robótica está muito atrasada em relação a outros campos de IA é a falta de dados – você não pode obter sinais de controle da internet. "
"Estamos esgotando rapidamente os dados do mundo real de alta qualidade da web, e a IA nascida de dados sintéticos será o caminho a seguir."
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Disjuntor do jogo! As novas conquistas da NVIDIA em dados sintéticos: a criação de uma "máquina de movimento perpétuo de dados de treinamento" para robôs
Fonte original: Diário do Conselho de Inovação em Ciência e Tecnologia
Com a enorme demanda por dados de IA, os recursos de dados estão quase esgotados, então as empresas começaram a encontrar uma "nova maneira" de obter dados - "criar" dados por conta própria. No entanto, a maioria dos dados sintéticos anteriores foi usada para treinamento de modelos grandes de IA e, desta vez, a Nvidia criou um "celeiro de dados" para treinamento de robôs.
Em um novo artigo de pesquisa entre a NVIDIA e a Universidade do Texas em Austin, um sistema chamado "MimicGen" é descrito que pode gerar automaticamente conjuntos de dados de treinamento de robôs em grande escala com apenas um pequeno número de demonstrações humanas. Jim Fan, cientista sênior da Nvidia, disse que a empresa abrirá o código-fonte de tudo, incluindo os conjuntos de dados gerados.
E quanto ao conjunto de dados gerado?
MimicGen pode "evoluir" a mesma cena em diferentes estágios com base nos dados originais:
Não só isso, mas os pesquisadores compararam os dados gerados por 10 demonstrações humanas com 200 demonstrações humanas, e os resultados também não foram muito diferentes. Portanto, o artigo também admite que mais pesquisas são necessárias sobre se mais dados de apresentação humana causarão redundância e custos desnecessários de rotulagem de dados.
Por que você é tão obcecado por dados sintéticos? Além dos recursos limitados de dados de origem mencionados no início do artigo, a coleta de dados é extremamente cara e demorada, e com um sistema como o MimicGen, é possível gerar automaticamente conjuntos de dados ricos e em grande escala com apenas uma pequena quantidade de dados, abrangendo vários cenários, capacidades de objetos, braços robóticos e tarefas de longo prazo ou de alta precisão, tornando-se uma maneira eficaz de "aumentar o poder e a economia do aprendizado de robôs".
"Os dados sintéticos fornecerão o próximo trilhão de dados para nossos modelos 'famintos'. "Uma das principais razões pelas quais a robótica está muito atrasada em relação a outros campos de IA é a falta de dados – você não pode obter sinais de controle da internet. "
"Estamos esgotando rapidamente os dados do mundo real de alta qualidade da web, e a IA nascida de dados sintéticos será o caminho a seguir."