Depois do modelo de linguagem grande, a visão computacional é a próxima saída?

Fonte do artigo: Big Model House

Autor:Zhao Xiaoman

Fonte da imagem: Gerada por Unbounded AI

No mês passado, a Open AI lançou a versão mais recente do GPT-4V, que permite aos usuários instruir o GPT-4 a analisar os recursos mais recentes de entradas de imagem fornecidas pelo usuário, e a notícia chamou a atenção da indústria de que incorporar outras modalidades, como entradas de imagem, em grandes modelos de linguagem (LLMs) é visto como uma fronteira chave na pesquisa e desenvolvimento de IA, e LLMs multimodais oferecem a possibilidade de expandir o impacto de sistemas de linguagem pura.

Do chatbot de IA ChatGPT lançado no final do ano passado ao atual GPT-4V, a Open AI estende os Large Language Models (LLMs) com habilidades multissensoriais (como compreensão visual) em Large Multimodal Models (LMMs) para alcançar uma inteligência geral mais forte.

Logo após o lançamento do GPT-4V, a Microsoft deu um guia do usuário ultra-detalhado de 166 páginas para o GPT-4V, desde modos de entrada simples até a capacidade de linguagem visual, prompts interativos com humanos, compreensão de vídeo de tempo, raciocínio visual abstrato e teste de quociente emocional de QI, o GPT-4V pode não apenas cobrir a experiência interativa na vida diária, mas até mesmo realizar avaliação diagnóstica profissional na indústria, medicina e outros campos.

Fonte: Microsoft (tradução da Web apenas para referência)

Atualmente, a capacidade sem precedentes do GPT-4V de lidar com entradas multimodais intercaladas arbitrárias e a versatilidade de suas funções se combinam para tornar o GPT-4V um poderoso sistema multimodal generalista. Além disso, a capacidade única do GPT-4V de entender marcadores visuais desenhados em imagens de entrada pode levar a novos métodos de interação humano-computador, como pistas de referência visual.

Vale a pena afirmar que a exploração preliminar do GPT-4V pode estimular pesquisas futuras sobre a próxima geração de fórmulas de tarefas multimodais**, usar e aprimorar novos métodos de LMM para resolver problemas do mundo real, e entender melhor os modelos básicos multimodais, e também se tornar uma nova exploração da direção de desenvolvimento da visão computacional.

Big Model Capacita Novo Desenvolvimento da Visão por Computador

Talvez quando se trata de capacidades multimodais, muitas pessoas não são estranhas, e há muitos modelos grandes na China que já têm capacidades multimodais quando são lançados, e podem realizar reconhecimento de imagem e geração, mas é preciso admitir que, em comparação com LLM (modelo de linguagem grande), o desenvolvimento de LMM (modelo multimodal grande) ainda tem muitas lacunas a serem resolvidas. **

Anteriormente, a Big Model Home experimentou uma série de modelos grandes com capacidades multimodais, tomando a estrutura de IA MindSpore "Zidong Taichu" versão 2.0 plataforma de modelo grande e iFLYTEK Spark como exemplos, que precisam ser melhorados em análise, raciocínio e capacidades de expressão.

Foto: Zidong Taichu

Foto: iFLYTEK Spark

**Vale a pena notar que em abril deste ano, a Meta propôs o modelo SAM (Segment Anything Model) ** para dividir tudo, o SAM é um modelo rápido, que treinou mais de 1 bilhão de máscaras em 11 milhões de imagens, alcançando uma poderosa generalização de amostra zero, alguns insiders da indústria disseram que o SAM rompeu os limites da segmentação e promoveu muito o desenvolvimento de modelos básicos de visão computacional.

Fonte: Meta**

O SAM em si é uma segmentação semântica de imagens, e o modelo apreende o conceito de "objetos" que podem gerar máscaras para qualquer objeto em qualquer imagem ou vídeo, mesmo que não o tenha visto em treinamento.

O surgimento de modelos SAM e GPT-4V pode instalar grandes modelos de linguagem em "olhos", assim como Open AI preparado para a implantação da geração GPT-4V**, incluindo Be My Eyes, uma organização que constrói ferramentas para usuários com deficiência visual, na véspera da geração de modelos, pode-se imaginar que o modelo grande é um "cego" falante, mas depois de adicionar visão, grandes modelos com capacidades multimodais podem entender números, vídeos, etc. O poder dessa função também impulsiona o desenvolvimento da inteligência artificial em uma nova direção.

Sob a onda dos grandes modelos, o caminho da visão computacional doméstica

Depois de usar as funções de entrada de imagem, reconhecimento e análise de inferência, o modelo grande pode alcançar o florescimento multi-campo e avançar para "visão computacional GPT".

Fonte: Huawei

No lado industrial, aplicando modelos visuais grandes para deteção de defeitos e outras etapas importantes para garantir a qualidade do produto no processo de fabricação, é essencial ser capaz de detetar falhas ou defeitos em tempo hábil e tomar medidas apropriadas para minimizar os custos operacionais e relacionados à qualidade. **

Fonte: SenseTime

Em termos de diagnóstico por imagem médica, combinado com o conhecimento do domínio profissional de grandes modelos cognitivos, depois de adicionar capacidades visuais, pode não só analisar em várias imagens médicas, mas também gerar rapidamente relatórios completos de radiologia, com o potencial de ser um assistente de IA para geração de relatórios radiológicos, atualmente a SenseTime desenvolveu um modelo de linguagem médica chinesa "Big Doctor" baseado em conhecimento médico e dados clínicos, com a capacidade de fornecer conversação multi-cenário multi-round, como orientação, consulta, consulta de saúde e tomada de decisão.

Em termos de condução automática, a informação de imagem obtida pelo modelo cognitivo grande durante a condução, objetivos de condução dinâmica, etc., pode ser combinada para dar as decisões de condução correspondentes e explicações de condução, e, em seguida, o modelo grande pode convertê-lo para a linguagem da condução automática, e interagir com o sistema de condução automática através do Drive para alcançar uma condução inteligente.

Fonte: Baidu

**Tomando o Baidu como exemplo, na recém-realizada Conferência Mundial Baidu 2023, em termos de condução inteligente, a pilha de tecnologia de condução autónoma foi completamente reconstruída através de novas tecnologias como Transformer e BEV, e a capacidade de perceção foi melhorada ao longo de gerações, acelerando a maturidade e popularização de soluções de visão pura. **Atualmente, a solução de condução inteligente de alta qualidade de visão pura da Baidu Apollo pode ser aplicada a cenários de alta velocidade, cidade, estacionamento e outros cenários globais, e alcançará a produção em massa no quarto trimestre deste ano, que também é a primeira solução de visão pura na China a pousar em cenas urbanas. Vale ressaltar que a remoção do lidar faz com que o custo de todo o veículo seja menor e aumenta a competitividade do mercado.

A Big Model House acredita que, com a bênção do conhecimento geral de grandes modelos de linguagem, a visão computacional inaugurou uma direção de desenvolvimento mais clara, desde o início da visão computacional confiando na memória repetitiva para aplicações práticas (como reconhecimento facial, reconhecimento de objetos), explorando a integração da visão e da linguagem tornou-se uma nova direção de grandes modelos e visão computacional, do desenvolvimento independente à integração mútua, a inteligência artificial também está constantemente explorando habilidades sensoriais mais próximas dos seres humanos, pode capturar melhor detalhes e recursos em imagens, e a precisão de grandes modelos foi melhorada. Ele pode se adaptar a mais cenas e distribuição de dados, confiar na capacidade de escrever e entender o modelo grande, integrar recursos visuais e se tornar um avatar mais inteligente.

É evidente que o desenvolvimento da ciência e da tecnologia deve ser limitado por muitos fatores. Grandes modelos exigem mais recursos de computação e tempo para treinamento, o que pode limitar sua escalabilidade e tempo real, enormes dados de treinamento devem ser limitados pelo poder de computação, especialmente GPUs de alto desempenho, memória e armazenamento de alta velocidade e tecnologia de treinamento distribuído, ** e o atual mercado global de GPU de alto desempenho NVIDIA ocupa quase 90% da participação, a China quer ocupar um lugar de destaque nesta competição de IA, promover o desenvolvimento de alta qualidade do poder de computação inteligente chinês tornou-se uma prioridade máxima. **

**Em geral, os modelos grandes têm muitas vantagens após a integração de capacidades visuais, mas também existem algumas limitações de desenvolvimento nesta fase. **Com o desenvolvimento contínuo de recursos de aprendizagem profunda e computação, podemos esperar o surgimento de modelos de grande porte mais avançados e tecnologias relacionadas para promover ainda mais a aplicação e o avanço da visão computacional em tarefas de imagem de alta resolução.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)