Meta atualização pesada, Xiaoza tem um cão que pode fazer tarefas domésticas no metaverso! Os avatares humanoides são ultrarrealistas, e os agentes de IA interagem com as pessoas no mundo físico real
Hoje, a Meta lançou o Habitat 3.0, um agente de IA treinado por ela que aprendeu a encontrar pessoas e ajudar as pessoas a limpar salas. Bots sociais, o próximo marco!
A partir de hoje, os seres humanos estão um passo mais perto dos robôs que ajudam nas tarefas domésticas!
A Meta anunciou o Habitat 3.0 com o objetivo de desenvolver um agente de IA social, o que significa que os robôs de inteligência social entraram em um novo marco.
A chave por trás dessas inteligências incorporadas é, claro, o AI Agent. Com eles, os robôs podem colaborar com humanos e ajudá-los a completar tarefas diárias.
Endereço em papel:
Endereço do projeto:
Na verdade, a Meta anunciou três grandes desenvolvimentos ao mesmo tempo hoje -
**1. O Habitat 3.0 é o primeiro simulador a suportar o treinamento em larga escala em tarefas de interação homem-máquina em ambientes internos diversificados e realistas. **
Ele suporta robôs e avatares humanoides, permitindo que humanos e robôs colaborem em um ambiente doméstico, como ajudar a limpar um quarto.
**2. O Habitat Synthetic Scene Dataset (HSSD-200) é um conjunto de dados tridimensional criado por artistas que contém mais de 18.000 objetos em 466 categorias semânticas em 211 cenas. **
O HSSD-200 tem a mais alta qualidade em conjuntos de dados semelhantes, pode treinar agentes de navegação e tem um efeito de generalização muito bom em cenas de reconstrução tridimensional no mundo físico, e o número de cenas usadas é duas ordens de magnitude menor.
**3. HomeRobot é uma plataforma de hardware e software muito acessível para assistentes de robôs domésticos, permitindo que os robôs executem tarefas de vocabulário aberto em ambientes simulados e físicos. **
Na aprendizagem em larga escala, o Habitat 3.0 pode completar mais de 1.000 passos por segundo em uma única GPU.
Netizen: Quando vai sair o robô capaz de tarefas domésticas
Internautas disseram: Este é um grande salto na robótica.
Há também pessoas que suspiram: este é um jogo de Sims muito avançado.
Algumas pessoas já estão ansiosas para experimentar o Habitat 3.0 no Meta Quest VR.
Os robôs de assistência doméstica dos sonhos não devem estar longe.
Habitat 3.0
Com o Habitat 3.0, a Meta não só fornece uma simulação realista dos seres humanos na aparência e postura.
Ele também suporta vários tipos de ações, desde simples (como andar e acenar) até complexas (como interagir com objetos), e é compatível com captura de movimento.
Além disso, o avatar pode ser controlado programaticamente sem degradação de desempenho – a velocidade de simulação homem-máquina é semelhante à velocidade de simulação robô-robô.
### ** Pessoas no loop**
Outra característica fundamental do Habitat 3.0 é o "humano no loop".
Com um mouse, teclado ou VR, podemos alcançar um incrível controle de interação humano-computador.
Depois de concluir a tarefa, o sistema recolhe a estratégia e os dados do robô e avalia a interação homem-máquina.
Tarefas Sociais
Além disso, o Habitat 3.0 pode simular uma variedade de cenários sociais do mundo real.
Em uma tarefa conhecida como navegação social, por exemplo, os robôs precisam encontrar e seguir humanos enquanto se mantêm seguros.
Em outra tarefa, os robôs precisam trabalhar com humanos para concluir tarefas como arrumar uma sala.
Neste ponto, humanos e robôs precisam ir para o local alvo separadamente, e o robô precisa encontrar uma maneira de alcançar esse objetivo com humanos da forma mais eficiente possível.
Robôs treinados que podem alcançar uma variedade de comportamentos sociais!
Além de manter uma distância segura dos humanos, os robôs também recuam quando necessário, deixando espaço para os humanos andarem.
Deixe os agentes de IA interagirem com humanos no mundo real
No passado, quando pensávamos em assistentes de IA, geralmente pensávamos em chatbots baseados na web, ou alto-falantes inteligentes.
Os pesquisadores da Meta esperam implementar agentes de IA incorporados com inteligência geral, para que possam sentir o ambiente, se comunicar e ajudar os humanos nos mundos digital e físico.
Uma das visões é fazer fones de ouvido de RA vestíveis durante todo o dia para uso humano.
Além disso, os pesquisadores estão aprimorando a tecnologia por trás dos robôs inteligentes sociais, permitindo que eles ajudem os humanos nas tarefas domésticas e se adaptem às preferências individualizadas dos humanos para as necessidades de seus parceiros.
O trabalho está focado em pesquisa aprofundada em sistemas embarcados para melhorar a próxima geração de experiências de RA e RV.
No entanto, treinar e testar agentes de IA incorporados com pessoas reais em hardware físico, sejam robôs ou óculos de RA, tem algumas limitações de escalabilidade e pode ter problemas de segurança.
Tal exige o estabelecimento de procedimentos normalizados de avaliação comparativa.
Portanto, os pesquisadores da Meta desenvolveram um novo conjunto de ferramentas para pesquisa de robôs em simuladores e conjuntos de dados.
Eles também desenvolveram uma pilha de tecnologia que inclui hardware e software para tornar esse aspeto da pesquisa mais fácil e mais acessível.
Para melhorar rapidamente as capacidades do robô, os investigadores desenvolvem e testam novos algoritmos e modelos em simuladores e, em seguida, portam-nos para robôs físicos.
Ao longo dos anos, o Habitat Simulator fez muitos avanços significativos.
Robôs virtuais treinados no Habitat 1.0 podem navegar em varreduras 3D de casas do mundo físico a velocidades de mais de 10.000 passos por segundo (SPS).
O Habitat 2.0 introduz ambientes interativos (por exemplo, itens para pegar, gavetas que podem ser abertas) e treina robôs virtuais para limpar casas reorganizando itens.
O Habitat 3.0 vai um passo além e pode suportar robôs e avatares humanoides, permitindo a colaboração homem-máquina para completar tarefas diárias, como arrumar a sala de estar e preparar receitas na cozinha.
Isso abre novos caminhos para estudar a colaboração humano-robô em tarefas diversas, realistas, visuais e semanticamente ricas.
Além disso, o Habitat 3.0 suporta avatares humanoides com aparência realista, marcha natural e movimentos, que podem simular interações realistas de baixo e alto nível.
Estes avatares podem ser controlados por estratégias aprendidas ou por pessoas reais através da interface "human-in-the-loop".
Esta interface suporta teclados, ratos e auriculares VR.
A coexistência de humanos e robôs em ambientes simulados permite que os humanos aprendam estratégias robóticas de IA, concluam tarefas diárias e as avaliem pela primeira vez em um ambiente familiar, na presença de avatares humanoides.
Isto é, sem dúvida, de grande importância -
Os algoritmos de aprendizagem por reforço normalmente requerem milhões de iterações para aprender conhecimento significativo, por isso pode levar anos para conduzir esses experimentos no mundo físico.
Em um experimento de simulação, isso pode ser feito em poucos dias.
2. Coletar dados em diferentes casas no mundo físico é impraticável, pois isso requer mover o robô para lugares diferentes e também configurar o ambiente.
Na simulação, você pode alterar o ambiente em uma fração de segundo e começar imediatamente a experimentar em um novo ambiente.
Se o modelo não for bem treinado, o robô tem o potencial de danificar o ambiente ou prejudicar as pessoas no mundo físico.
Os simuladores permitem que os pesquisadores testem métodos em um ambiente seguro antes de implantá-los no mundo físico, o que garante segurança.
Os modelos de IA mais avançados de hoje exigem grandes quantidades de dados para treinar, e as simulações facilitam para os pesquisadores aumentar a coleta de dados.
No mundo físico, a recolha de dados pode ser bastante dispendiosa e lenta.
Além disso, os investigadores propõem duas tarefas altamente relevantes e um conjunto de parâmetros de referência para estabelecer parâmetros de referência no domínio da IA social incorporada.
A primeira tarefa é a "arrumação social", que envolve robôs e avatares humanoides trabalhando juntos para realizar uma série de tarefas de coleta e colocação, como limpar casas.
Nesta tarefa, os robôs e os seres humanos devem agir em conjunto para alcançar um objetivo comum. Esse comportamento inteligente ocorre após o treinamento de simulação em larga escala.
A segunda tarefa é a "navegação social", que permite ao robô localizar e rastrear uma pessoa, mantendo uma distância segura.
Conjunto de Dados de Cena de Composição de Habitat
Os conjuntos de dados de cena 3D são essenciais para treinar robôs em um ambiente simulado.
Atualmente, embora existam muitos conjuntos de dados que suportam dados de treinamento de dimensionamento, não entendemos o compromisso entre o tamanho do conjunto de dados e a autenticidade.
Para este fim, a Meta lançou um novo conjunto de dados de cena 3D sintético - HSSD-200.
Consiste em 211 cenas 3D de alta qualidade que representam o ambiente interno real, incluindo 18.656 modelos de objetos do mundo físico de 466 categorias semânticas. Mais próximo da física real do que os conjuntos de dados anteriores.
Especificamente, o HSSD-200 fornece cenas interiores 3D de maior qualidade, inteiramente criadas artificialmente, e inclui classificação semântica refinada correspondente à ontologia do WordNet.
Além disso, a função de compressão de ativos do HSSD-200 permite a simulação de IA de alto desempenho.
Em termos de cenas, o HSSD-200 é feito usando a interface de design de interiores Floorplanner, e o layout é principalmente uma reprodução da casa real.
Entre eles, objetos individuais são criados por artistas 3D profissionais, na maioria dos casos combinando móveis e eletrodomésticos reais.
Experimentos mostraram que o conjunto de dados HSSD-200 menor, mas de maior qualidade, pode gerar agentes objectNav com objetos como alvos de navegação, e seu desempenho é comparável ao de agentes treinados em conjuntos de dados maiores.
Além disso, o número de cenários necessários para treinar um agente em HSSD-200 é 2 ordens de magnitude menor -
Em comparação com agentes treinados com 10.000 cenários ProcTHOR, os agentes treinados com 122 cenários HSSD-200 generalizam melhor para cenários do mundo físico HM3DSem.
HomeRobot
Plataformas comuns e compartilhadas são uma parte importante dos avanços do aprendizado de máquina, mas na robótica, plataformas semelhantes estão faltando porque é difícil replicar e dimensionar conquistas de hardware.
Neste sentido, a Meta propõe três objetivos para uma plataforma de pesquisa robótica reproduzível:
- Uma Estrela Polar inspiradora:
A plataforma precisa fornecer missões guiadas da Estrela do Norte para motivar os pesquisadores e ajudá-los em seu trabalho. Entre eles, eles também podem comparar vários métodos em problemas interessantes do mundo real.
Por exemplo, "Open Word Movement Manipulation (OVMM)" – pegar objetos em qualquer ambiente desconhecido e colocá-los em um local designado. Isso requer uma perceção muito forte a longo prazo e compreensão da cena, e é útil para uma ampla gama de tarefas.
- Capacidades de Software:
A plataforma precisa fornecer alguma interface de abstração para tornar o robô mais fácil de usar para uma variedade de tarefas, incluindo navegação e manipulação.
-Comunidade:
A plataforma precisa incentivar os desenvolvedores a se envolverem e tentarem construir uma comunidade em torno da base de código.
Para avançar na pesquisa nesta área, a Meta lançou uma nova biblioteca HomeRobot que permite o suporte para os recursos de navegação e manipulação do Hello Robot Stretch.
Endereço do projeto:
Especificamente, o HomeRobot tem dois componentes:
Componentes de simulação: utilizar um conjunto grande e diversificado de objetos em novos ambientes domésticos multi-room de alta qualidade;
Componentes do mundo físico: fornece pilhas de software para produtos de baixo custo Hello Robot Stretch e Boston Dynamics para incentivar a replicação de experimentos do mundo físico em laboratórios.
Além disso, o HomeRobot fornece uma pilha de software muito amigável, permitindo aos utilizadores configurar rapidamente o robô e testá-lo imediatamente. As características incluem:
-Portabilidade:
Existe um estado unificado e um espaço de ação entre as configurações do mundo da simulação e da física para cada tarefa, proporcionando uma maneira fácil de operar o robô usando um espaço de movimento de alto nível (como uma estratégia de predefinição de preensão) ou controle contínuo de articulação de baixo nível.
-Modularização:
O componente de perceção e ação suporta estados de alto nível (por exemplo, mapas semânticos, nuvens de pontos segmentadas) e ações de alto nível (por exemplo, ir a um local de destino, pegar um objeto alvo).
- Agente Base:
Estratégias para usar esses recursos para fornecer a funcionalidade básica do OVMM, bem como ferramentas para construir agentes mais complexos, podem ser desenvolvidas por outras equipes.
No benchmark HomeRobot OVMM, um agente pode pegar itens novos no ambiente doméstico e colocá-los em um contêiner alvo.
Entre eles, a Meta usa aprendizagem por reforço e linhas de base heurísticas (baseadas em modelos) para mostrar que as habilidades de navegação e colocação podem ser transferidas da simulação para o mundo físico. Os resultados mostram que a linha de base pode alcançar uma taxa de sucesso de 20% no mundo físico.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Meta atualização pesada, Xiaoza tem um cão que pode fazer tarefas domésticas no metaverso! Os avatares humanoides são ultrarrealistas, e os agentes de IA interagem com as pessoas no mundo físico real
Fonte: Shin Zhiyuan
Hoje, a Meta lançou o Habitat 3.0, um agente de IA treinado por ela que aprendeu a encontrar pessoas e ajudar as pessoas a limpar salas. Bots sociais, o próximo marco!
A partir de hoje, os seres humanos estão um passo mais perto dos robôs que ajudam nas tarefas domésticas!
Endereço do projeto:
Na verdade, a Meta anunciou três grandes desenvolvimentos ao mesmo tempo hoje -
**1. O Habitat 3.0 é o primeiro simulador a suportar o treinamento em larga escala em tarefas de interação homem-máquina em ambientes internos diversificados e realistas. **
Ele suporta robôs e avatares humanoides, permitindo que humanos e robôs colaborem em um ambiente doméstico, como ajudar a limpar um quarto.
O HSSD-200 tem a mais alta qualidade em conjuntos de dados semelhantes, pode treinar agentes de navegação e tem um efeito de generalização muito bom em cenas de reconstrução tridimensional no mundo físico, e o número de cenas usadas é duas ordens de magnitude menor.
Na aprendizagem em larga escala, o Habitat 3.0 pode completar mais de 1.000 passos por segundo em uma única GPU.
Netizen: Quando vai sair o robô capaz de tarefas domésticas
Internautas disseram: Este é um grande salto na robótica.
Habitat 3.0
Com o Habitat 3.0, a Meta não só fornece uma simulação realista dos seres humanos na aparência e postura.
Outra característica fundamental do Habitat 3.0 é o "humano no loop".
Tarefas Sociais
Além disso, o Habitat 3.0 pode simular uma variedade de cenários sociais do mundo real.
Em uma tarefa conhecida como navegação social, por exemplo, os robôs precisam encontrar e seguir humanos enquanto se mantêm seguros.
Neste ponto, humanos e robôs precisam ir para o local alvo separadamente, e o robô precisa encontrar uma maneira de alcançar esse objetivo com humanos da forma mais eficiente possível.
Além de manter uma distância segura dos humanos, os robôs também recuam quando necessário, deixando espaço para os humanos andarem.
Deixe os agentes de IA interagirem com humanos no mundo real
No passado, quando pensávamos em assistentes de IA, geralmente pensávamos em chatbots baseados na web, ou alto-falantes inteligentes.
Os pesquisadores da Meta esperam implementar agentes de IA incorporados com inteligência geral, para que possam sentir o ambiente, se comunicar e ajudar os humanos nos mundos digital e físico.
Uma das visões é fazer fones de ouvido de RA vestíveis durante todo o dia para uso humano.
Além disso, os pesquisadores estão aprimorando a tecnologia por trás dos robôs inteligentes sociais, permitindo que eles ajudem os humanos nas tarefas domésticas e se adaptem às preferências individualizadas dos humanos para as necessidades de seus parceiros.
O trabalho está focado em pesquisa aprofundada em sistemas embarcados para melhorar a próxima geração de experiências de RA e RV.
Tal exige o estabelecimento de procedimentos normalizados de avaliação comparativa.
Portanto, os pesquisadores da Meta desenvolveram um novo conjunto de ferramentas para pesquisa de robôs em simuladores e conjuntos de dados.
Eles também desenvolveram uma pilha de tecnologia que inclui hardware e software para tornar esse aspeto da pesquisa mais fácil e mais acessível.
Para melhorar rapidamente as capacidades do robô, os investigadores desenvolvem e testam novos algoritmos e modelos em simuladores e, em seguida, portam-nos para robôs físicos.
Ao longo dos anos, o Habitat Simulator fez muitos avanços significativos.
O Habitat 2.0 introduz ambientes interativos (por exemplo, itens para pegar, gavetas que podem ser abertas) e treina robôs virtuais para limpar casas reorganizando itens.
O Habitat 3.0 vai um passo além e pode suportar robôs e avatares humanoides, permitindo a colaboração homem-máquina para completar tarefas diárias, como arrumar a sala de estar e preparar receitas na cozinha.
Isso abre novos caminhos para estudar a colaboração humano-robô em tarefas diversas, realistas, visuais e semanticamente ricas.
Além disso, o Habitat 3.0 suporta avatares humanoides com aparência realista, marcha natural e movimentos, que podem simular interações realistas de baixo e alto nível.
Esta interface suporta teclados, ratos e auriculares VR.
A coexistência de humanos e robôs em ambientes simulados permite que os humanos aprendam estratégias robóticas de IA, concluam tarefas diárias e as avaliem pela primeira vez em um ambiente familiar, na presença de avatares humanoides.
Isto é, sem dúvida, de grande importância -
Em um experimento de simulação, isso pode ser feito em poucos dias.
Na simulação, você pode alterar o ambiente em uma fração de segundo e começar imediatamente a experimentar em um novo ambiente.
Os simuladores permitem que os pesquisadores testem métodos em um ambiente seguro antes de implantá-los no mundo físico, o que garante segurança.
No mundo físico, a recolha de dados pode ser bastante dispendiosa e lenta.
A primeira tarefa é a "arrumação social", que envolve robôs e avatares humanoides trabalhando juntos para realizar uma série de tarefas de coleta e colocação, como limpar casas.
Nesta tarefa, os robôs e os seres humanos devem agir em conjunto para alcançar um objetivo comum. Esse comportamento inteligente ocorre após o treinamento de simulação em larga escala.
A segunda tarefa é a "navegação social", que permite ao robô localizar e rastrear uma pessoa, mantendo uma distância segura.
Conjunto de Dados de Cena de Composição de Habitat
Os conjuntos de dados de cena 3D são essenciais para treinar robôs em um ambiente simulado.
Atualmente, embora existam muitos conjuntos de dados que suportam dados de treinamento de dimensionamento, não entendemos o compromisso entre o tamanho do conjunto de dados e a autenticidade.
Para este fim, a Meta lançou um novo conjunto de dados de cena 3D sintético - HSSD-200.
Consiste em 211 cenas 3D de alta qualidade que representam o ambiente interno real, incluindo 18.656 modelos de objetos do mundo físico de 466 categorias semânticas. Mais próximo da física real do que os conjuntos de dados anteriores.
Além disso, a função de compressão de ativos do HSSD-200 permite a simulação de IA de alto desempenho.
Entre eles, objetos individuais são criados por artistas 3D profissionais, na maioria dos casos combinando móveis e eletrodomésticos reais.
Além disso, o número de cenários necessários para treinar um agente em HSSD-200 é 2 ordens de magnitude menor -
Em comparação com agentes treinados com 10.000 cenários ProcTHOR, os agentes treinados com 122 cenários HSSD-200 generalizam melhor para cenários do mundo físico HM3DSem.
HomeRobot
Plataformas comuns e compartilhadas são uma parte importante dos avanços do aprendizado de máquina, mas na robótica, plataformas semelhantes estão faltando porque é difícil replicar e dimensionar conquistas de hardware.
Neste sentido, a Meta propõe três objetivos para uma plataforma de pesquisa robótica reproduzível:
- Uma Estrela Polar inspiradora:
A plataforma precisa fornecer missões guiadas da Estrela do Norte para motivar os pesquisadores e ajudá-los em seu trabalho. Entre eles, eles também podem comparar vários métodos em problemas interessantes do mundo real.
Por exemplo, "Open Word Movement Manipulation (OVMM)" – pegar objetos em qualquer ambiente desconhecido e colocá-los em um local designado. Isso requer uma perceção muito forte a longo prazo e compreensão da cena, e é útil para uma ampla gama de tarefas.
A plataforma precisa fornecer alguma interface de abstração para tornar o robô mais fácil de usar para uma variedade de tarefas, incluindo navegação e manipulação.
-Comunidade:
A plataforma precisa incentivar os desenvolvedores a se envolverem e tentarem construir uma comunidade em torno da base de código.
Para avançar na pesquisa nesta área, a Meta lançou uma nova biblioteca HomeRobot que permite o suporte para os recursos de navegação e manipulação do Hello Robot Stretch.
Especificamente, o HomeRobot tem dois componentes:
Componentes de simulação: utilizar um conjunto grande e diversificado de objetos em novos ambientes domésticos multi-room de alta qualidade;
Componentes do mundo físico: fornece pilhas de software para produtos de baixo custo Hello Robot Stretch e Boston Dynamics para incentivar a replicação de experimentos do mundo físico em laboratórios.
-Portabilidade:
Existe um estado unificado e um espaço de ação entre as configurações do mundo da simulação e da física para cada tarefa, proporcionando uma maneira fácil de operar o robô usando um espaço de movimento de alto nível (como uma estratégia de predefinição de preensão) ou controle contínuo de articulação de baixo nível.
-Modularização:
O componente de perceção e ação suporta estados de alto nível (por exemplo, mapas semânticos, nuvens de pontos segmentadas) e ações de alto nível (por exemplo, ir a um local de destino, pegar um objeto alvo).
- Agente Base:
Estratégias para usar esses recursos para fornecer a funcionalidade básica do OVMM, bem como ferramentas para construir agentes mais complexos, podem ser desenvolvidas por outras equipes.
Entre eles, a Meta usa aprendizagem por reforço e linhas de base heurísticas (baseadas em modelos) para mostrar que as habilidades de navegação e colocação podem ser transferidas da simulação para o mundo físico. Os resultados mostram que a linha de base pode alcançar uma taxa de sucesso de 20% no mundo físico.
Recursos: