O grande modelo de IA revolucionará a IA

Fonte: Observador Econômico

Autor: Shen Yiran

Fonte da imagem: Gerada por Unbounded AI

Em abril deste ano, vários pesquisadores de uma empresa líder em inteligência artificial deram atenção a uma nova tecnologia: o SAM (Segment Anything Model). Os pesquisadores rapidamente relataram essa tecnologia ao chefe do departamento. Esta empresa começou com tecnologia de visão de máquina, e a tecnologia que os pesquisadores focaram também estava relacionada a isso. “Com o advento do SAM, mais e mais pessoas de IA percebem que grandes modelos são um choque para eles”, disse um dos pesquisadores.

Um mês depois, a empresa começou a alocar recursos para desenvolver um grande modelo visual.

Nos três meses seguintes, as principais empresas de IA de visão de máquina prestaram atenção ao potencial dessa tecnologia. Até agora, empresas de inteligência artificial como SenseTime e CloudWalk Technology, bem como empresas de segurança tradicionais, começaram a investir nessa nova competição de tecnologia.

SAM é um modelo de segmentação de imagem para cenas gerais. Foi lançado pela Meta em abril deste ano. Assim como falar com o ChatGPT, os humanos podem usar algumas instruções de linguagem para permitir que o SAM distinga e pense de forma independente sobre o conteúdo da imagem. O SAM é considerado como ser ChatGPT apareceu no campo de visão.

Entusiastas de todo o mundo o usam para fazer desenhos, cortar fotos e se divertir, mas os pesquisadores chineses reconheceram o poder do SAM: se for usado em direção automática, monitoramento de segurança, para detectar pessoas, carros e estradas, ele é um modelo grande e independente que quebra fundamentalmente a jogabilidade tradicional de visão de máquina.

Segmentar e reconhecer imagens é uma tarefa central da visão de máquina. No passado, cada tarefa de criar uma imagem segmentada exigia o treinamento de um algoritmo, anotando um lote de dados e permitindo que a máquina "visse" vários objetos na imagem sobrepondo pequenos modelos. O SAM apresentou algumas novidades: sem criar um pequeno modelo para cada tarefa específica, a máquina pode segmentar autonomamente qualquer objeto em qualquer imagem, até mesmo uma cena desconhecida e borrada, e a operação é extremamente simples.

Isso significa que o SAM possui recursos mais gerais e é possível usar esse recurso geral para reduzir bastante o custo do reconhecimento de visão de máquina, alterando assim o modelo de negócios e o padrão de concorrência com base na tecnologia original.

Desde 2016, centenas de empresas de inteligência artificial surgiram na China, que possui um mercado enorme. Com a ajuda da concorrência de mercado e do capital, vários unicórnios de IA se formaram gradualmente, como Shangtang Technology, Cloudwalk Technology, Megvii Technology, de acordo com a Yitu Technology , essas empresas trouxeram a IA para os campos de segurança, assuntos governamentais e indústria e construíram um fosso aproveitando a sofisticação dos algoritmos e as vantagens de escala.

Mas agora, com a mudança de tecnologia, o evento pode ser reiniciado.

Feng Junlan, cientista-chefe do China Mobile Group e vice-presidente da China Artificial Intelligence Industry Development Alliance, disse a repórteres que o modelo grande de IA trará um novo paradigma de inteligência artificial. O chamado fosso no campo da IA no passado basicamente não existe sob o impacto do grande modelo. O surgimento do SAM prova a viabilidade de grandes modelos visuais, subvertendo a estrutura de pesquisa, a interação e os métodos de serviço de produção da visão de máquina.

Luo Xun, membro sênior do IEEE, professor da Universidade de Tecnologia de Tianjin e especialista em tecnologia AR/VR, disse a repórteres que as vantagens das capacidades de IA de empresas líderes antes serão enfraquecidas até certo ponto devido ao aumento de modelos grandes de uso geral. Mas se essas empresas se tornarão mais fracas depende de sua transformação.

Percurso técnico

Como um ramo importante da IA, o objetivo da visão de máquina é permitir que os computadores imitem o sistema visual humano para entender e processar imagens e vídeos.

Depois de 2000, Geoffrey Hinton, Yann LeCun e Yoshua Bengio, conhecidos como os fundadores da inteligência artificial, romperam com a tecnologia de aprendizado profundo, permitindo que as máquinas simulassem vagamente o cérebro humano e aprendessem e extraíssem automaticamente recursos de imagens massivas.

2012 é um nó de tempo importante. O projeto ImageNet criado pelo professor da Universidade de Stanford, Li Feifei, tornou o aprendizado profundo no mainstream: os pesquisadores podem ensinar os computadores a reconhecer vários objetos rotulando manualmente um grande número de imagens, o que melhora muito a visão de máquina. A taxa de precisão reduz o custo e possibilita sua comercialização.

Em abril de 2023, novas mudanças vieram, e a Meta lançou um modelo de segmentação de imagem chamado SAM. Como um modelo grande, o SAM não apenas equipa a máquina com olhos para perceber o mundo exterior, mas também dota a máquina de um cérebro real. Ele aprende a observar, perceber, pensar, raciocinar logicamente e extrair resultados de imagens e a operação é extremamente simples, semelhante ao ChatGPT usa diálogo de linguagem humana para dar comandos de máquina.

Em suma, atinge o objetivo de visão de máquina com mais facilidade, sem a necessidade de um grande número de anotações de imagem e algoritmos de empilhamento, além de consumir menos poder de computação. O cientista de inteligência artificial da Nvidia, Jim Fan, disse que o grande modelo SAM é o momento GPT-3 da visão de máquina. Ele compreendeu o conceito geral de objetos, mesmo para objetos desconhecidos, cenas desconhecidas (como imagens subaquáticas) e em situações ambíguas Imagem segmentação também é possível.

Depois que a Meta lançou o SAM, ela também abriu o código do modelo e o conjunto de dados de treinamento por trás dele e introduziu os cenários de aplicação do SAM de AR, VR, criação de conteúdo e outros campos.

Empresas e pesquisadores na China julgaram rapidamente o possível valor comercial do SAM.Se for usado em direção autônoma, monitoramento de segurança, para detectar pessoas, carros e estradas, pode quebrar fundamentalmente a visão de máquina tradicional.

Feng Junlan disse que o modelo grande mudará o modo de fornecimento da IA, reduzirá bastante a complexidade do lado da oferta e o custo marginal é próximo de zero; o lado comercial pode expressar a demanda em linguagem natural mais simples e não precisa mais confiar em instruções profissionais, como códigos de engenheiros Comunicam-se com as máquinas e implantam-se de forma flexível em diferentes modelos de acordo com suas próprias necessidades, melhorando a eficiência

Zhu Bing, diretor de produtos da Uniview Technology, disse aos repórteres: "No passado, trabalhar com IA era como carregar caixas. Na verdade, era um trabalho manual relativamente de baixa tecnologia. Quando a IA capacita uma cena de ponto único, é muito fragmentados. E os personalizados, a eficiência de pré-venda, a eficiência de pós-venda e a eficiência de vendas são todas baixas, e o upstream e downstream da indústria são mais dolorosos.” Por exemplo, Zhu Bing disse que o investimento e o custo dos fabricantes que investem no desenvolvimento, coleta de materiais, calibração e personalização de algoritmos para diferentes cenários e regiões são muito grandes. Para os clientes, a taxa de desenvolvimento personalizado também é uma despesa considerável.

Hoje, usar um modelo grande para substituir o jogo original de modelo pequeno não requer algoritmos de empilhamento ou uma grande quantidade de dados rotulados e consome muito pouco poder de computação no processo. Você pode usar uma linguagem humana mais simples para dar comandos à máquina sem usando uma linguagem de programação de computador profissional. Zhu Bing disse que o grande modelo reduziu muito o custo de pesquisa, desenvolvimento e implantação de IA. Ele construiu uma série de novos jogos e reestruturou a ordem da indústria, especialmente na indústria de visão computacional. As barreiras técnicas anteriores construídas por grandes empresas foram sido suavizado. , todos voltaram para a mesma linha de partida.

Influxo

Em torno da geração anterior de tecnologia de visão de máquina, várias empresas de inteligência artificial nasceram na China, e as tecnologias fornecidas por essas empresas começaram a ser amplamente utilizadas no monitoramento de câmeras e identificação de inspeção de segurança para segurança pública, metrôs e edifícios comerciais.

"AI Four Tigers" refere-se a quatro empresas chinesas de inteligência artificial que foram estabelecidas sucessivamente entre 2011 e 2014, ou seja, SenseTime, Cloudwalk Technology, Megvii Technology e Yitu Technology. Sua característica comum é a visão de máquina como tecnologia central. O avanço da IA na rota de aprendizado profundo forneceu uma base técnica para o surgimento desse grupo de empresas de inteligência artificial, e as vantagens industriais da China forneceram um mercado para o desenvolvimento dessas empresas .

Depois que o SAM foi lançado, eles começaram a direcionar essa tecnologia um após o outro.

O repórter aprendeu com muitas pessoas na indústria que, além de Yitu Technology, SenseTime, Yuncong Technology e Megvii Technology entre os "AI Four Tigers" estão desenvolvendo modelos visuais em grande escala. Kangweishi e Uniview Technology também implantam pesquisa e desenvolvimento de tecnologia relacionada.

Em abril, apenas alguns dias após a Meta lançar o SAM, a SenseTime lançou o modelo grande "Daily New". Tian Feng, reitor do SenseTime Intelligent Industry Research Institute, disse aos repórteres que a série "Ri Ri Xin" é uma coleção de vários modelos grandes, incluindo geração de linguagem natural, geração de imagem e percepção visual. Entre eles, "Ruying", "Qiongyu" , "Gewu" são grandes modelos relacionados à visão.

Em maio, a Yuncong Technology lançou o modelo grande "calmo", que é um grande modelo multimodal incluindo visão. A Yuncong Technology declarou na recente reunião de investidores que o modelo visual grande é muito importante e será lançado no futuro. modelos. Porque a empresa tem uma forte reserva em visão computacional e porque precisa de tecnologia multimodal para resolver os negócios específicos dos clientes.

Megvii e Yitu ainda não lançaram modelos grandes. Megvii disse a repórteres que está "desenvolvendo um modelo grande, mas não foi lançado e entregue aos clientes". Em termos de direção, Megvii selecionou quatro direções de pesquisa: modelo grande de imagem geral, modelo grande de compreensão de vídeo, modelo grande de fotografia computacional e modelo grande de percepção de direção autônoma, e alcançou alguns avanços.

Su Lianjie, analista-chefe de inteligência artificial da instituição de pesquisa Omdia, disse a repórteres que, sob o impacto do modelo visual em grande escala, o "AI Four Tigers" rapidamente se transformou em um modelo em grande escala e implantou um grande modelo multimodal Modelo em escala que se concentra na visão, relativamente razoável.

A Hikvision disse aos investidores em junho deste ano: "Prestamos atenção ao modelo SAM no início de seu lançamento e realizamos uma avaliação sistemática". um modelo industrial de grande escala baseado em um modelo geral de grande escala + cenário da indústria + treinamento e ajuste. Foi lançado pela primeira vez em 9 de maio e foi testado pelo primeiro lote de parceiros em junho.

A Hikvision e a Uniview Technology são empresas de segurança tradicionais que começaram como fabricantes de equipamentos. Elas enfrentaram uma concorrência acirrada depois que os "Quatro Tigres AI" entraram no setor de segurança. Elas têm adotado ativamente a tecnologia de visão de máquina. participação de mercado.

Atualmente, as empresas de IA estão começando a chegar a um consenso sobre o significado de "a época de grandes modelos".

Tian Feng, reitor do SenseTime Intelligent Industry Research Institute, e Yao Zhiqiang, cofundador da Yuncong Technology, disseram a repórteres que AI1.0 é a era dos modelos pequenos. As empresas fornecem principalmente modelos pequenos proprietários e usam tecnologia multiponto para resolver necessidades específicas da cena. ; AI2.0 é a era dos grandes modelos. As empresas precisam usar uma plataforma de base tecnológica unificada em grande escala, ou seja, criar um modelo básico multimodal com capacidades gerais de percepção e cognição para o mundo, e nesta base geram uma série de indústrias.Modelos pequenos para atender as necessidades de cenas profissionais e cenas mais massivas.

Yao Zhiqiang acredita que se uma empresa de IA ainda estiver no estágio anterior, ela poderá resolver muitos problemas de cena, mas o custo é difícil de reduzir, impossibilitando a demonstração do efeito de escala; Tian Feng acredita que as duas eras coexistem por muito tempo, e não é quem elimina o outro.Na relação oposta, os dois se completam de forma coordenada. Por exemplo, usando a estrutura de modelo especialista híbrido (MoE), na era AI2.0, vários modelos são combinados em serviços e os modelos 1.0 também podem ser incorporados.

Na nova competição, o acúmulo de tecnologia original e o investimento em hardware ainda desempenharão um papel.

Tian Feng disse aos repórteres que o centro de computação inteligente "AI Large Device" tem um poderoso poder de computação AI e pode fornecer poder de computação de treinamento para 20 modelos grandes com centenas de bilhões de parâmetros. É o equipamento chave para desenvolver e treinar modelos grandes. SenseTime Not apenas para uso pessoal, mas também aberto a startups de grande porte e parceiros de P&D.

A pessoa responsável pela Yunwalk disse aos repórteres que o sistema operacional CWOS da empresa tem vantagens inerentes na integração de supermodelos de linguagem como o ChatGPT. Ao mesmo tempo, o sistema pode fornecer dados e informações para o modelo grande de acordo com a situação real da produção, otimizar o treinamento e o ajuste do modelo e melhorar a precisão e a eficiência do modelo.

Modelo grande invade o mercado

"Mesmo sem o impacto do grande modelo, os "AI Four Tigers" ainda estão em um período de confusão em transformação e precisam pensar em seu próprio valor e saída." Su Lianjie disse.

Um grupo de empresas de inteligência artificial tem sido favorecido pelo capital e pelo mercado, entre as quais a SenseTime e a CloudWalk desembarcaram no mercado de capitais. De 2018 a 2022, a SenseTime investiu mais de 12 bilhões de yuans em pesquisa e desenvolvimento a cada ano e levantou mais de 5 bilhões de yuans em seu IPO em 2021. De 2018 a 2022, a Yuncong investiu mais de 2,2 bilhões de yuans em pesquisa e desenvolvimento a cada ano e levantará 1,7 bilhão de yuans em seu IPO em 2022.

A boa interação entre tecnologia e capital também deu à China uma vantagem de liderança no campo do reconhecimento visual. Por volta de 2018, a China perdia apenas para os Estados Unidos ou superava os Estados Unidos em termos de número de artigos de inteligência artificial publicados e quantidade de financiamento de inteligência artificial Especialmente no campo do reconhecimento visual, as empresas chinesas de inteligência artificial repetidamente quebraram recordes em competições internacionais e alcançaram excelentes resultados.

Mas logo, com a promoção do mercado, o potencial da tecnologia original atingiu gradualmente o pico. Em 2019, Zhang Bo, acadêmico da Academia Chinesa de Ciências, sugeriu em entrevista exclusiva ao Economic Observer que o potencial de aplicações industriais pode foram tocados na rota de tecnologia existente.

Mais importante, do ponto de vista comercial, a rota técnica original da IA sempre foi difícil de romper o gargalo de custo, de modo que os clientes da indústria mais tradicional não conseguem pagar a conta. Zhu Bing disse: "Por muitos anos, não vimos um novo pedido vigoroso. Um grande número de empresas está competindo impiedosamente nas duas trilhas de reconhecimento humano e de placas de veículos. A razão fundamental é que mais algoritmos não podem formar um efeito de escala. "

Um pesquisador de IA de uma empresa líder disse a repórteres que, de acordo com o método tradicional, uma empresa de IA atende a uma fábrica de automóveis e vende um conjunto de algoritmos para identificar bloqueios de estradas. O algoritmo único médio para identificar um bloqueio custa mais de 100.000 yuans e leva cerca de 2 meses. , o cliente precisa fornecer dezenas de milhares de imagens para rotulagem, mas apenas um algoritmo não é suficiente, a cena real da estrada é muito complexa, o algoritmo adequado para carros pequenos pode não ser adequado para caminhões grandes e não pode ser reconhecido de outro ângulo.Também é difícil reconhecer quando o alvo de detecção está parcialmente ocluído.

Para aumentar a inteligência dos equipamentos, as empresas de IA precisam sobrepor vários algoritmos, o que significa simplesmente empilhar muitos modelos pequenos. De acordo com o relatório financeiro, SenseTime acumulou 67.000 pequenos modelos comerciais.O repórter aprendeu com a Yuncong Technology que a empresa também possui milhares de pequenos modelos comerciais.

Mas o tempo e o custo do treinamento também dobraram.

Feng Junlan disse aos repórteres que é difícil para muitas empresas de IA ganhar dinheiro. Uma razão importante é o alto custo dos serviços de IA, fazendo com que as empresas "ganhem um yuan e percam cinco yuans", e o modelo de "quanto mais pedidos recebidos, quanto mais compensação" torna mais difícil para os fornecedores. Continuando, o lado da demanda pode ser apenas algumas indústrias-chave ou indústrias com fortes capacidades de pagamento.

De acordo com o relatório financeiro, de 2018 a 2022, a Yuncong Technology acumulou perdas de 3,1 bilhões de yuans e a SenseTime acumulou perdas de mais de 40 bilhões de yuans.

A fim de reduzir ainda mais o custo da IA e melhorar o mercado, a estratégia dos "AI Four Tigers" também divergiu. SenseTime escolhe dispositivos AI, Cloudwalk escolhe sistemas operacionais, Megvii escolhe chips e YITU escolhe IoT.

Nessa perspectiva, o grande modelo pode trazer não apenas desafios para as empresas existentes, mas também um novo modelo de negócios e cenário de aplicação.

O pesquisador mencionado acima disse que a empresa tem se esforçado para encontrar negócios de IA em mais mercados. Por exemplo, a empresa uma vez conversou com um supermercado sobre monitoramento de IA para detectar se o vendedor estava presente. A empresa enviou cinco engenheiros de algoritmo e o só o salário custa 300.000 yuan. O salário mensal total das dezenas de vendedores do cliente é inferior a 50.000 yuan; ele também conversou com o proprietário da fábrica sobre a inspeção de qualidade da IA, que detecta se as caixas de embalagem na linha de montagem estão danificadas e as outras parte avalia que é mais econômico contratar trabalhadores, etc.

Esses requisitos são referidos coletivamente como os requisitos de cauda longa da IA: um grande número de clientes de pequeno e médio porte, com fraca capacidade de pagamento, não tem uma demanda rígida por IA, mas tem algumas necessidades especiais em determinados cenários, que podem ser usado ou não, e eles não estão dispostos a pagar milhões de dólares. Na visão deste pesquisador, no futuro, um certo tipo de grande modelo ou um conjunto de grandes modelos multimodais pode ser aplicado a esses cenários de detecção visual, usando a migração e as capacidades gerais de grandes modelos, apenas uma pequena quantidade de anotação de dados e investimento em algoritmo são necessários, e o desenvolvimento O ciclo e os requisitos de poder de computação também serão menores, de modo que o custo será bastante reduzido e os clientes terão maior probabilidade de pagar.

Zhu Bing estimou que, no passado, algoritmos de IA baseados em modelos pequenos poderiam atender a menos de 10% dos requisitos de fragmentação. No futuro, a probabilidade de algoritmos de IA baseados em modelos grandes pode ser aumentada para mais de 50% e a eficiência do algoritmo geral de cauda longa pode ser aumentado em 10 vezes. O tempo pode ser reduzido para 1 pessoa por semana.

Yao Zhiqiang disse aos repórteres que, uma vez que a tecnologia é padronizada e padronizada, todas as empresas de IA podem se adaptar rapidamente a cenários massivos e realizar aplicações massivas por meio de uma plataforma unificada de base tecnológica central.

Feng Junlan disse que o custo do consumo de tecnologia é muito menor do que o valor que a tecnologia traz para os negócios.Quando essa fórmula é satisfeita, a tecnologia pode ser ampliada e migrada para mercados maiores e de cauda mais longa. Isso também satisfaz a lógica fundamental para as empresas de IA obterem lucratividade e também significa que elas têm a oportunidade de desenvolver mais mercados de oceano azul.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)