Depois do modelo de linguagem grande, a visão computacional é a próxima saída?

Question

*Fonte do artigo: Big Model House**Autor:Zhao Xiaoman*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *Fonte da imagem: Gerada por Unbounded AI*No mês passado, a Open AI lançou a versão mais recente do GPT-4V, que permite aos usuários instruir o GPT-4 a analisar os recursos mais recentes de entradas de imagem fornecidas pelo usuário, e a notícia chamou a atenção da indústria de que incorporar outras modalidades, como entradas de imagem, em grandes modelos de linguagem (LLMs) é visto como uma fronteira chave na pesquisa e desenvolvimento de IA, e LLMs multimodais oferecem a possibilidade de expandir o impacto de sistemas de linguagem pura.Do chatbot de IA ChatGPT lançado no final do ano passado ao atual GPT-4V, a Open AI estende os Large Language Models (LLMs) com habilidades multissensoriais (como compreensão visual) em Large Multimodal Models (LMMs) para alcançar uma inteligência geral mais forte.Logo após o lançamento do GPT-4V, a Microsoft deu um guia do usuário ultra-detalhado de 166 páginas para o GPT-4V, desde modos de entrada simples até a capacidade de linguagem visual, prompts interativos com humanos, compreensão de vídeo de tempo, raciocínio visual abstrato e teste de quociente emocional de QI, o GPT-4V pode não apenas cobrir a experiência interativa na vida diária, mas até mesmo realizar avaliação diagnóstica profissional na indústria, medicina e outros campos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **Fonte: Microsoft (tradução da Web apenas para referência)**Atualmente, a capacidade sem precedentes do GPT-4V de lidar com entradas multimodais intercaladas arbitrárias e a versatilidade de suas funções se combinam para tornar o GPT-4V um poderoso sistema multimodal generalista. Além disso, a capacidade única do GPT-4V de entender marcadores visuais desenhados em imagens de entrada pode levar a novos métodos de interação humano-computador, como pistas de referência visual.Vale a pena afirmar que a exploração preliminar do GPT-4V pode estimular pesquisas futuras sobre a próxima geração de fórmulas de tarefas multimodais**, usar e aprimorar novos métodos de LMM para resolver problemas do mundo real, e entender melhor os modelos básicos multimodais, e também se tornar uma nova exploração da direção de desenvolvimento da visão computacional.  ## **Big Model Capacita Novo Desenvolvimento da Visão por Computador**  Talvez quando se trata de capacidades multimodais, muitas pessoas não são estranhas, e há muitos modelos grandes na China que já têm capacidades multimodais quando são lançados, e podem realizar reconhecimento de imagem e geração, mas é preciso admitir que, em comparação com LLM (modelo de linguagem grande), o desenvolvimento de LMM (modelo multimodal grande) ainda tem muitas lacunas a serem resolvidas. **Anteriormente, a Big Model Home experimentou uma série de modelos grandes com capacidades multimodais, tomando a estrutura de IA MindSpore "Zidong Taichu" versão 2.0 plataforma de modelo grande e iFLYTEK Spark como exemplos, que precisam ser melhorados em análise, raciocínio e capacidades de expressão.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **Foto: Zidong Taichu**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **Foto: iFLYTEK Spark****Vale a pena notar que em abril deste ano, a Meta propôs o modelo SAM (Segment Anything Model) ** para dividir tudo, o SAM é um modelo rápido, que treinou mais de 1 bilhão de máscaras em 11 milhões de imagens, alcançando uma poderosa generalização de amostra zero, alguns insiders da indústria disseram que o SAM rompeu os limites da segmentação e promoveu muito o desenvolvimento de modelos básicos de visão computacional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) Fonte: Meta**O SAM em si é uma segmentação semântica de imagens, e o modelo apreende o conceito de "objetos" que podem gerar máscaras para qualquer objeto em qualquer imagem ou vídeo, mesmo que não o tenha visto em treinamento.O surgimento de modelos SAM e GPT-4V pode instalar grandes modelos de linguagem em "olhos", assim como Open AI preparado para a implantação da geração GPT-4V**, incluindo Be My Eyes, uma organização que constrói ferramentas para usuários com deficiência visual, na véspera da geração de modelos, pode-se imaginar que o modelo grande é um "cego" falante, mas depois de adicionar visão, grandes modelos com capacidades multimodais podem entender números, vídeos, etc. O poder dessa função também impulsiona o desenvolvimento da inteligência artificial em uma nova direção.  ## **Sob a onda dos grandes modelos, o caminho da visão computacional doméstica**  Depois de usar as funções de entrada de imagem, reconhecimento e análise de inferência, o modelo grande pode alcançar o florescimento multi-campo e avançar para "visão computacional GPT".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **Fonte: Huawei**No lado industrial, aplicando modelos visuais grandes para deteção de defeitos e outras etapas importantes para garantir a qualidade do produto no processo de fabricação, é essencial ser capaz de detetar falhas ou defeitos em tempo hábil e tomar medidas apropriadas para minimizar os custos operacionais e relacionados à qualidade. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **Fonte: SenseTime**Em termos de diagnóstico por imagem médica, combinado com o conhecimento do domínio profissional de grandes modelos cognitivos, depois de adicionar capacidades visuais, pode não só analisar em várias imagens médicas, mas também gerar rapidamente relatórios completos de radiologia, com o potencial de ser um assistente de IA para geração de relatórios radiológicos, atualmente a SenseTime desenvolveu um modelo de linguagem médica chinesa "Big Doctor" baseado em conhecimento médico e dados clínicos, com a capacidade de fornecer conversação multi-cenário multi-round, como orientação, consulta, consulta de saúde e tomada de decisão.Em termos de condução automática, a informação de imagem obtida pelo modelo cognitivo grande durante a condução, objetivos de condução dinâmica, etc., pode ser combinada para dar as decisões de condução correspondentes e explicações de condução, e, em seguida, o modelo grande pode convertê-lo para a linguagem da condução automática, e interagir com o sistema de condução automática através do Drive para alcançar uma condução inteligente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **Fonte: Baidu****Tomando o Baidu como exemplo, na recém-realizada Conferência Mundial Baidu 2023, em termos de condução inteligente, a pilha de tecnologia de condução autónoma foi completamente reconstruída através de novas tecnologias como Transformer e BEV, e a capacidade de perceção foi melhorada ao longo de gerações, acelerando a maturidade e popularização de soluções de visão pura. **Atualmente, a solução de condução inteligente de alta qualidade de visão pura da Baidu Apollo pode ser aplicada a cenários de alta velocidade, cidade, estacionamento e outros cenários globais, e alcançará a produção em massa no quarto trimestre deste ano, que também é a primeira solução de visão pura na China a pousar em cenas urbanas. Vale ressaltar que a remoção do lidar faz com que o custo de todo o veículo seja menor e aumenta a competitividade do mercado.**A Big Model House acredita que, com a bênção do conhecimento geral de grandes modelos de linguagem, a visão computacional inaugurou uma direção de desenvolvimento mais clara**, desde o início da visão computacional confiando na memória repetitiva para aplicações práticas (como reconhecimento facial, reconhecimento de objetos), explorando a integração da visão e da linguagem tornou-se uma nova direção de grandes modelos e visão computacional, do desenvolvimento independente à integração mútua, a inteligência artificial também está constantemente explorando habilidades sensoriais mais próximas dos seres humanos, pode capturar melhor detalhes e recursos em imagens, e a precisão de grandes modelos foi melhorada. Ele pode se adaptar a mais cenas e distribuição de dados, confiar na capacidade de escrever e entender o modelo grande, integrar recursos visuais e se tornar um avatar mais inteligente.É evidente que o desenvolvimento da ciência e da tecnologia deve ser limitado por muitos fatores. Grandes modelos exigem mais recursos de computação e tempo para treinamento, o que pode limitar sua escalabilidade e tempo real, enormes dados de treinamento devem ser limitados pelo poder de computação, especialmente GPUs de alto desempenho, memória e armazenamento de alta velocidade e tecnologia de treinamento distribuído, ** e o atual mercado global de GPU de alto desempenho NVIDIA ocupa quase 90% da participação, a China quer ocupar um lugar de destaque nesta competição de IA, promover o desenvolvimento de alta qualidade do poder de computação inteligente chinês tornou-se uma prioridade máxima. ****Em geral, os modelos grandes têm muitas vantagens após a integração de capacidades visuais, mas também existem algumas limitações de desenvolvimento nesta fase. **Com o desenvolvimento contínuo de recursos de aprendizagem profunda e computação, podemos esperar o surgimento de modelos de grande porte mais avançados e tecnologias relacionadas para promover ainda mais a aplicação e o avanço da visão computacional em tarefas de imagem de alta resolução.