O modelo grande está, na verdade, equipado com direção autônoma e a IA explicará como ele dirige!

2023-09-17 03:13:13

Fonte: Xinzhiyuan

LINGO-1 lançado pela Wayve dá um bocado na direção autônoma! Como dirigir esse carro, ele explica para si mesmo, um modelo de linguagem grande, não é mais uma caixa preta.

Desde a sua invenção, o mais preocupante sobre a condução autónoma é que os humanos não conseguem saber o que se passa na sua mente.

A partir de hoje, ele pode realmente “expressar” seus pensamentos?

Recentemente, Wayve lançou o LINGO-1, um grande modelo de interação de direção autônoma baseado em grandes modelos de ação de linguagem visual (VLAMs), que integra profundamente grandes modelos de linguagem e direção autônoma.

Especificamente, o LINGO-1 treinou um modelo de linguagem de vídeo, que pode ser considerado bastante personalizado - ele pode comentar a cena que está acontecendo à sua frente!

-O que você está fazendo? -Estou atravessando o trânsito com cuidado porque as condições da estrada estão complicadas no momento. -O que você vai fazer a seguir? -Vou virar à esquerda. -Quais são os riscos potenciais no cenário em questão? - semáforos, ciclistas, pedestres atravessando a estrada

Ele explicará claramente todas as suas dúvidas sobre o sistema de direção inteligente.

P: Por que parou? Resposta: Porque agora é um sinal vermelho.

Depois de ser treinado em uma variedade de dados visuais e de linguagem, o LINGO-1 pode não apenas realizar tarefas de resposta visual a perguntas (VQA), como percepção, contrafactuais, planejamento, raciocínio e atenção, mas também descrever o comportamento e o raciocínio ao dirigir.

Em outras palavras, podemos compreender os fatores que afetam as decisões de condução fazendo perguntas ao LINGO-1.

Os internautas lamentaram: "A caixa preta de ponta a ponta foi aberta desta forma. É simplesmente um milagre na era GPT. O sistema de direção autônoma deu um grande passo em frente na interação com o mundo físico real."

É concebível que, à medida que ultrapassamos os limites da inteligência artificial incorporada, o modelo visão-fala-ação terá um enorme impacto, porque a linguagem fornece um novo paradigma para melhorar a forma como interpretamos e treinamos modelos de condução autónoma.

Um elogio vem no carro que dirige sozinho?

A característica única do LINGO-1 é a introdução de um especialista humano para treinar nos dados de comentários linguísticos das cenas de direção, permitindo que o modelo conecte a percepção ambiental, a tomada de decisões de ação e a interpretação da cena semelhante à humana.

Desta forma, pode interpretar as decisões e ações do sistema de condução autónoma através da interação em linguagem natural.

Jim Fan, cientista sênior de IA da NVIDIA, comentou com entusiasmo: Este é o trabalho mais interessante na área de direção autônoma que li recentemente!

No passado, a condução autónoma era "percepção -> operação de condução", mas no futuro, a condução autónoma adicionou a etapa do raciocínio, que é "percepção -> raciocínio verbal -> acção".

Quais são as vantagens desta nova etapa de raciocínio explícito? Jim Fan explica o seguinte——

Interpretabilidade: O modelo de condução não é mais uma misteriosa caixa preta.

Cenários contrafactuais: É capaz de imaginar cenários que não estão nos dados de treinamento e raciocinar sobre como tratá-los corretamente.

Programação de cauda longa: Há um grande número de cenários extremos na condução e é impossível fornecer uma boa cobertura de dados para todos os cenários. Em vez de coletar milhares de exemplos para “neuroprogramar” um caso, os especialistas humanos podem escrever instruções () para explicar um pequeno número de exemplos, orientando assim o sistema sobre como lidar com cenários específicos ou complexos.

Além disso, o LINGO-1 também está intimamente relacionado a algumas pesquisas na área de inteligência artificial de jogos, como MineDojo e Thought Cloning, que são ambos agentes de IA.

O primeiro pode aprender um modelo de recompensa que associa o texto da revisão aos pixels de vídeo do Minecraft. Este último pode realizar um conjunto completo de links de "pixel->linguagem->loop de ação".

LINGO-1——Narrador de condução em circuito aberto

Minha própria explicação

Em que o modelo está prestando atenção? fazendo o que? Agora, isso não é mais um mistério.

O LINGO-1 explicará claramente o que ele faz em cada etapa do processo.

Por exemplo, se quiser ultrapassar um veículo estacionado na beira da estrada -

LINGO-1: Estou ultrapassando devido ao trânsito lento. LINGO-1: Estou passando por um carro estacionado. LINGO-1: Estou acelerando porque o caminho à frente está livre.

Ao se aproximar de uma passadeira——

LINGO-1: Estou mantendo minha velocidade; a estrada ainda está livre. LINGO-1: Frenagem e desaceleração agora. LINGO-1: Pare na passadeira. LINGO-1: Estou acelerando de onde parei. LINGO-1: Estou acelerando porque a estrada está livre.

Ao virar à esquerda em um cruzamento——

LINGO-1: Fiquei parado porque o carro da frente também parou. LINGO-1: Estou acelerando porque o carro da frente se afastou. LINGO-1: Estou freando para parar no cruzamento. LINGO-1: Estou avançando porque a pista está livre. LINGO-1: Vire à esquerda e siga o percurso.

### Resposta visual a perguntas (VQA)

Além de se explicar, o LINGO-1 também pode responder às suas perguntas, permitindo-nos avaliar a sua compreensão da cena e capacidade de raciocínio.

Por exemplo, se você perguntar ao LINGO-1, no que você deve prestar atenção neste cruzamento?

Diz: “Tenho que prestar atenção ao semáforo à minha frente, ao ciclista à minha frente e ao pedestre atravessando a rua”.

Pergunte ao LINGO-1, como está o tempo agora? Que impacto isso terá na direção?

Dirá: “É um dia chuvoso e preciso ter muito cuidado ao dirigir porque a superfície da estrada é escorregadia e a visibilidade é reduzida em dias chuvosos”.

LINGO-1, como você anda lado a lado com segurança com uma bicicleta?

Dirá: “Tenho que manter distância dos ciclistas e parar quando necessário. É um perigo potencial. Além disso, tenho que prestar atenção aos carros estacionados na beira da estrada”.

### Chave: impulsionando o conjunto de dados de comentários

A chave para o desenvolvimento do LINGO-1 foi a criação de um conjunto de dados escalonável e diversificado. Este conjunto de dados contém comentários de motoristas profissionais enquanto dirigem no Reino Unido, incluindo imagens, idioma e dados de ação.

Isso nos lembra a cena em que estávamos aprendendo a dirigir com os instrutores da autoescola - de vez em quando eles faziam comentários e explicações como as seguintes para explicar por que se comportavam dessa maneira ao dirigir, para que os alunos pudessem fazer inferências .

O veículo/semáforo à frente mudou, por favor diminua a velocidade - É hora de mudar de faixa - Você pode acelerar, tome cuidado para não ultrapassar o limite máximo de velocidade - Atenção! Outros veículos entraram na estrada/pararam no cruzamento - Preste atenção às rotatórias e dê sinais de passagem à frente - Há veículos estacionados/semáforos/escolas à frente - Os próximos veículos estão mudando de faixa/ultrapassando veículos estacionados - Ciclistas/pedestres estão esperando no passadeira de zebra

Quando as frases acima, as imagens sensoriais e as ações de direção subjacentes forem sincronizadas no tempo, os pesquisadores obterão um rico conjunto de dados de ação de linguagem visual que pode ser usado para treinar modelos para várias tarefas.

Modelo de ação de linguagem visual (VLAM)

Após a ascensão do LLM, muitos modelos de linguagem visual (VLM) combinam as capacidades de raciocínio do LLM com imagens e vídeos.

A Wayve lançou ainda o Modelo Visão-Linguagem-Ação (VLAM), que contém três tipos de imagens-informações, dados de condução e linguagem.

No passado, a linguagem natural raramente era usada no treinamento de robôs (especialmente na área de direção autônoma).

Se a linguagem natural for adicionada, permitir-nos-á interpretar e treinar de forma mais poderosa os modelos básicos de condução.Este novo modelo terá um enorme impacto.

Ao utilizar a linguagem para explicar vários fatores causais em cenários de condução, a velocidade de treinamento do modelo pode ser acelerada e estendida a novos cenários.

E como podemos fazer perguntas ao modelo, podemos saber o que o modelo entende e quão bem ele pode raciocinar e tomar decisões.

O sistema de direção autônoma não é mais uma misteriosa caixa preta, podemos perguntar de vez em quando enquanto dirigimos: O que você está pensando?

Isto irá, sem dúvida, aumentar a confiança do público na condução autónoma.

Além disso, embora haja apenas um pequeno número de amostras de treinamento, a rápida capacidade de aprendizagem da linguagem natural permite que o modelo aprenda novas tarefas de forma rápida e eficiente e se adapte a novos cenários.

Por exemplo, desde que utilizemos linguagem natural para dizer ao modelo “este comportamento está errado”, podemos corrigir o comportamento errado do sistema de condução autónoma.

De agora em diante, talvez apenas a linguagem natural seja necessária para estabelecer um modelo básico para a condução autônoma de ponta a ponta!

Precisão 60%

Durante esse período, a equipe melhorou a arquitetura do modelo e o conjunto de dados de treinamento.

Não é difícil ver pela figura que o desempenho do LINGO-1 dobrou em comparação com o início.

Atualmente, a precisão do LINGO-1 atingiu 60% do nível humano.

Obviamente, a introdução da linguagem natural pode revolucionar a tecnologia de condução autónoma em muitos aspectos.

Melhorar a interpretabilidade dos modelos ponta a ponta

A falta de interpretabilidade dos modelos de aprendizado de máquina sempre foi o foco das pesquisas.

Ao criar uma interface interativa baseada em linguagem natural, os usuários podem fazer perguntas diretamente e deixar que a IA as responda, obtendo assim uma compreensão profunda da compreensão do modelo sobre a cena e como ele toma decisões.

Este diálogo único entre passageiros e automóveis autónomos pode aumentar a transparência e facilitar a compreensão e a confiança nestes sistemas.

Ao mesmo tempo, a linguagem natural também aumenta a capacidade do modelo de se adaptar e aprender com o feedback humano.

Como um instrutor guiando um aluno ao volante, as instruções corretivas e o feedback do usuário refinam a compreensão do modelo e o processo de tomada de decisão ao longo do tempo.

Melhor planejamento e raciocínio, melhor desempenho de direção

Existem dois fatores principais que afetam o desempenho da direção autônoma:

A capacidade dos modelos de linguagem de interpretar com precisão vários cenários de modo de entrada
A proficiência do modelo em converter o raciocínio de nível médio em planejamento eficaz de baixo nível

Neste sentido, a equipa está a tentar melhorar o modelo de condução em circuito fechado através da linguagem natural, do raciocínio e das capacidades de planeamento do LINGO.

Modelo de condução autônoma de circuito fechado Wayve LINGO-1

Aprendizado eficiente de novos cenários ou cenários de cauda longa

Normalmente, uma imagem vale mais que mil palavras.

Mas ao treinar um modelo, um texto vale mais que mil imagens.

Agora, em vez de termos milhares de exemplos de carros a abrandar para os peões, precisamos apenas de alguns exemplos, juntamente com uma breve descrição em texto, para ensinar o modelo a abrandar e aprender como deve agir nesta situação.

Você sabe, uma das partes mais importantes da direção autônoma é o raciocínio causal, que permite ao sistema compreender a relação entre os elementos e os comportamentos na cena.

Um VLAM de bom desempenho permite que o sistema conecte os pedestres que esperam nas passadeiras com os sinais de trânsito "Não atravesse". Isto é extremamente significativo em cenários desafiadores com dados limitados.

Além disso, o LLM já possui um grande conhecimento sobre o comportamento humano a partir de conjuntos de dados da Internet, para que possa compreender conceitos como identificação de objetos, regras de trânsito e operações de direção, como entre árvores, lojas, casas, cães perseguindo bolas, e ônibus estacionados em frente às escolas.

Através da codificação de informações mais ampla de dados gráficos do VLAM, a direção autônoma se tornará mais avançada e segura.

Limitações

Claro, o LINGO-1 também tem certas limitações.

Generalização

LINGO-1 é treinado em experiência de direção no centro de Londres e texto em escala de Internet.

Embora eu tenha aprendido sobre culturas de direção de todo o mundo, atualmente sou melhor em interpretar as leis de trânsito britânicas.

Também requer aprender com a experiência de condução em outros países.

Alucinação

As alucinações são um problema bem conhecido em grandes modelos de linguagem, e o LINGO-1 não é exceção.

Porém, comparado ao LLM comum, o LINGO-1 tem uma vantagem: por se basear na visão, na linguagem e na ação, tem mais fontes de supervisão e pode compreender melhor o mundo.

Contexto

O aprendizado profundo de vídeo é desafiador porque os dados de vídeo são normalmente ordens de magnitude maiores do que os conjuntos de dados de imagem ou texto.

Os modelos de linguagem multimodal baseados em vídeo exigem especialmente longos comprimentos de contexto para serem capazes de incorporar muitos quadros de vídeo para raciocinar sobre cenários de direção dinâmicos complexos.

Raciocínio de circuito fechado

Atualmente, a Wayve está trabalhando na interpretabilidade do modelo, mas, em última análise, as capacidades de raciocínio do seu LLM serão capazes de impactar verdadeiramente a direção humana.

Os pesquisadores estão desenvolvendo uma arquitetura de circuito fechado que poderá executar o LINGO-1 em veículos autônomos no futuro.

Discussão entre internautas

Os internautas também acharam isso muito emocionante.

“Curiosamente, acho que o modelo de linguagem interpreta as previsões de direção, frenagem e aceleração do modelo de controle de direção em palavras, em vez de afetar a direção em si, porque a linguagem natural perderia a precisão necessária.”

“Com esta abordagem, estamos nos aproximando muito da AGI.”

“Você pode pensar nisso como adicionar linguagem ao modelo mundial. Nunca entendi por que isso nunca foi tentado antes, porque a ideia de treinar um agente para se comunicar parece ser algo em que todos podem pensar.”

"Essa mudança da ação puramente perceptiva para a adição de raciocínio textual é uma virada de jogo! Na minha opinião, esta é a peça que falta na direção autônoma porque torna possível a interpretabilidade de uma forma não técnica."

Atualmente, a integração do treinamento de robôs e da linguagem natural ainda está em seus estágios iniciais.

O LINGO-1 deu oficialmente um passo importante no uso da linguagem natural para melhorar a aprendizagem e a interpretabilidade dos modelos básicos de condução.

Imagine, no futuro, só precisaremos usar instruções de texto simples para permitir que a IA informe as condições das estradas à frente ou deixe a IA aprender as regras de trânsito de diferentes regiões. Esta cena é tão emocionante!

Portanto, a linguagem natural tem um grande potencial no desenvolvimento de carros autônomos mais seguros e confiáveis.

Referências:

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Simple Earn Annual Rate 24.4%
13k Popularidade
2Gate Launchpad List IKA
22k Popularidade
3ETH Trading Volume Surges
17k Popularidade
4Gate ETH 10th Anniversary Celebration
24k Popularidade
5Trump’s AI Strategy
19k Popularidade

Pino