Quão difícil é conseguir um modelo vertical?

Question

Fonte original: essas coisas na Internet

Fonte da imagem: Gerada por Unbounded AI‌

O status atual da trilha do modelo de grande escala: *Por um lado, as empresas iniciantes são baseadas em modelos de grande escala de código aberto e, por outro lado, grandes fabricantes estão envolvendo vários parâmetros de modelo de grande escala *.

De acordo com as estatísticas incompletas da organização, existem atualmente 79 modelos de grande escala com uma escala de mais de 1 bilhão de parâmetros na China. No processo de grande involução de parâmetros, outra voz começou a aparecer no mercado, "a melhoria de parâmetros sem direção de desenvolvimento não tem sentido".

Por esta razão, em termos de direção de desenvolvimento, alguns grandes modelos foram focados na aplicação de campos verticais. Com base no desenvolvimento de milhares de modelos, a base pode mudar, mas se você pensar bem, sempre haverá alguém que pode fugir da indústria vertical.

Ao mesmo tempo, no estágio inicial de desenvolvimento, embora os grandes modelos de código fechado sejam melhores em qualidade e relativamente seguros, a ecologia do modelo em grande escala precisa de um certo grau de involução, afinal, e o código aberto pode realmente promover a prosperidade de modelos grandes. Em outra perspectiva, baseada em código aberto, muitas empresas têm qualificação para participar da trilha, mas sempre há quem caia facilmente no primeiro nível - a escassez de poder computacional.

Afinal, o número de modelos grandes está aumentando em múltiplos, mas se olharmos para o número crescente de modelos grandes unilateralmente, até certo ponto, ignoraremos as escolhas, lutas e até problemas de algumas empresas por trás dos grandes modelos. modelos. A possibilidade de desistir depois de escolher.

Como todos sabemos, os três elementos da inteligência artificial são: poder computacional, algoritmo e dados. O código aberto está apenas no estágio de algoritmo, após o qual as empresas precisam de muito suporte de poder de computação e treinamento de dados, o custo por trás disso é alto.

01 Modelo vertical, ainda há esperança para empresas iniciantes?

Na seleção de grandes modelos de código aberto, com base em razões de custo e desenvolvimento personalizado, não são poucas as empresas empreendedoras que escolhem modelos de pequenos parâmetros e são até a primeira escolha dessas empresas.

**Uma delas é a questão do custo pré-treinamento. **

A Guosheng Securities estimou uma vez que o custo do treinamento GPT-3 é de cerca de 1,4 milhão de dólares americanos e, para alguns modelos LLM maiores, o custo do treinamento está entre 2 milhões e 12 milhões de dólares americanos.

Incluindo em janeiro deste ano, uma média de cerca de 13 milhões de visitantes únicos usam o ChatGPT todos os dias. A demanda de chip correspondente é de mais de 30.000 GPUs NVIDIA A100. O custo inicial do investimento é de cerca de 800 milhões de dólares americanos e o custo diário de eletricidade é de cerca de 50.000 dólares americanos.

Além do mais, antes que muito dinheiro seja investido, muitos recursos de dados são necessários para dar suporte ao treinamento do modelo. Outra razão para isso é a questão dos requisitos pré-treinamento.

Algumas pessoas na indústria também expressaram suas opiniões sobre isso: "A capacidade de generalização do próprio modelo grande ainda é limitada pelos dados".

Porque uma vez que os dados de alta qualidade do modelo grande são rastreados e treinados muito pouco, o problema de qualidade de saída do modelo grande será óbvio e a experiência do usuário será bastante reduzida em termos de experiência.

Pode-se dizer que no processo de pré-treinamento, muito dinheiro e tempo foram gastos apenas no acúmulo de dados.

Além do mais, na trilha do modelo em grande escala, a maioria das startups se desenvolve em torno do campo vertical da indústria.Embora o esforço seja relativamente pequeno, não deve ser fácil.

Especificamente, se um grande modelo deseja mudar o modelo de negócios da indústria, o critério mais simples para julgar isso é se o grande modelo desse tipo possui dados suficientes da indústria, por exemplo, é necessário analisar os produtos negros ocultos no escuro. Somente com compreensão suficiente podemos não ser usados por produtos pretos e estar em um estado seguro e passivo.

** Outro critério de julgamento é a qualidade da saída final dos dados processados pelo modelo grande durante a execução. **

Afinal, se você quer quebrar o monopólio do modelo baseado no modelo de código aberto, precisa otimizar e melhorar uma grande quantidade de dados e investir em infraestrutura suficiente.

O modelo de código aberto de hoje é mais parecido com o Android na era da Internet. Não é fácil para empresas iniciantes sem as vantagens dos cenários de aterrissagem e acúmulo de dados de grandes fabricantes, mas ainda há oportunidades.

Na verdade, o Instituto Bodhidharma já considerou o "desenvolvimento cooperativo de modelos grandes e pequenos" como uma das tendências futuras.

Mesmo a empresa iniciante Zhuiyi Technology acredita que "o grande modelo vertical é uma oportunidade sólida, assim como a descoberta do continente americano é muito mais do que apenas uma pessoa".

Portanto, agora podemos ver que muitas startups começaram a optar por entrar na trilha do modelo em grande escala, incluindo DriveGPT Xuehu Hairuo, Qizhi Kongming e ChatYuan Yuanyu, lançados por startups de IA, como Momo Zhixing, Innovation Qizhi e Yuanyu Intelligence. e outros. modelos grandes.

No entanto, embora não existam produtos nacionais para o final C, com base no final B, os principais fabricantes iniciaram o processo de implementação inicial.

É relatado que os principais fabricantes estão planejando exportar modelos grandes por meio da nuvem. A computação em nuvem se tornou a melhor maneira de implementar um modelo grande. Modelo como serviço (MaaS) atraiu cada vez mais atenção e isso também trará o custo de modelos grandes.diminuir.

Então, ainda há esperança para startups?

02 A experiência do produto é condizente com a demanda do mercado?

De acordo com a previsão da revista oficial "Fast Company", a receita da OpenAI em 2023 chegará a 200 milhões de dólares americanos, incluindo o fornecimento de serviços de interface de dados API, taxas de serviço de assinatura de robô de bate-papo, etc.

Obviamente, há uma demanda por modelos grandes em vários setores, mas com base em considerações de segurança e na atitude de B em relação aos modelos grandes, o atual fator de segurança dos modelos grandes é limitado. Portanto, de forma relativamente básica, grandes empresas de Internet também estão dando prioridade a diálogos de alta demanda, geração de conteúdo de documentos e cenários de perguntas e respostas, incluindo diálogos em escritórios colaborativos, geração de documentos e muitos outros cenários.

Por exemplo, agora os humanos só precisam informar a IA sobre as informações do produto, permitir que a IA gere automaticamente uma variedade de estilos de scripts e estilos de entrega de produtos e, em seguida, atribuir uma âncora humana digital para ajudar as empresas a vender as mercadorias. De acordo com o Baidu, em comparação com a transmissão ao vivo, a transmissão ao vivo digital pode atingir 7*24 horas de transmissão ao vivo ininterrupta, e a taxa de conversão é o dobro da das salas de transmissão ao vivo não tripuladas.

Com a infraestrutura em nuvem como a base necessária para o empreendedorismo em larga escala, os gigantes da Internet com computação em nuvem têm certas vantagens.

De acordo com os dados de rastreamento do mercado IaaS de computação em nuvem global de 2022 divulgados pela IDC, os 10 principais participantes do mercado são grandes empresas na China e nos Estados Unidos, incluindo Amazon, Google, Microsoft e IBM nos Estados Unidos e Ali, Huawei, Tencent e Baidu na China.

Embora as disputas de código aberto e código fechado de grandes modelos não terminem com o surgimento de um ou vários produtos, é necessária a participação de mais talentos, iteração técnica e apoio financeiro.

Mas, comparadas horizontalmente, muitas empresas iniciantes de IA também carecem da sorte da empresa unicórnio startup MiniMax. (A diferença é que o MiniMax se concentra em modelos grandes gerais)

Em 20 de julho, a Tencent Cloud divulgou o mais recente progresso em ajudar a MiniMax a desenvolver modelos grandes. Atualmente, a Tencent Cloud oferece suporte às tarefas de nível de quilocaloria do MiniMax para execução estável na Tencent Cloud por um longo período, com uma disponibilidade de 99,9%.

É relatado que, a partir de junho de 2022, com base nos recursos do produto, como clusters de poder de computação, nuvem nativa, big data e segurança, a Tencent Cloud construiu uma arquitetura de nuvem para MiniMax a partir da camada de recursos, camada de dados e camada de negócios.

A realidade parece provar mais uma vez que conseguir o ingresso é o primeiro passo, e o próximo teste é a capacidade dos players do mercado de explorar a comercialização e as atualizações tecnológicas. Para ser franco, as empresas iniciantes de IA querem correr até o fim na pista e não devem perder todas as etapas.

Até certo ponto, as empresas iniciantes têm vantagens no desenvolvimento de grandes modelos.

Embora algumas grandes empresas de Internet já tenham percebido os cenários iniciais, ou tenham começado a vender serviços para obter renda, os olhos das grandes empresas e da MiniMax estão mais voltados para modelos grandes de uso geral.

A maquete vertical ainda é um vácuo. Especialmente para grupos empresariais tradicionais, considerando os baixos atributos de TI de seus próprios negócios e a baixa taxa de insumos para produção, a probabilidade de escolher um modelo grande autodesenvolvido é baixa.

Por exemplo, Chuangxin Qizhi se concentra no produto de modelo industrial em grande escala "Qizhi Kongming"; tem uma certa vantagem de dados e desenvolve um modelo de linguagem em grande escala em ChatYuan; o principal modelo de grande escala generativo autônomo DriveGPT Xuehu · Hairuo .

No entanto, há uma coisa a dizer: os dados e a direção do treinamento são diferentes e o custo varia muito.

Primeiro, o custo de treinar um grande modelo de metalinguagem do zero pode chegar a dezenas de milhões de RMB. No campo da direção autônoma generativa, é necessário projetar uma nova linguagem além do ChatGPT e, em seguida, "traduzir" todos os dados reais de direção em uma linguagem unificada.

Até certo ponto, as empresas iniciantes de IA podem realizar uma grande quantidade de investimento em modelos grandes e se beneficiar mais do sucesso do ChatGPT em negócios e marketing, que pode permitir que as pessoas testemunhem instantaneamente a viabilidade de modelos grandes, em vez de continuar a hide in the Na longa iteração técnica.

Por esse motivo, o primeiro passo para realizar a implementação atual é que o custo de treinamento e o custo de raciocínio do modelo grande devem ser menores que os da pesquisa, e o imediatismo também pode ser garantido.

03 Quão difícil é do conceito à implementação?

Há uma visão de que as empresas iniciantes chinesas de grande escala que podem acabar provavelmente serão integradas verticalmente.

Simplificando, ao criar o grande modelo subjacente, identifique o cenário final do aplicativo principal de um modelo, colete dados do usuário e faça iterações rápidas.

Visualmente, a inteligência metalinguística é mais inclinada a esta categoria. Resumindo, por muito tempo, a inteligência de metalinguagem concentrou-se no negócio de grandes modelos de linguagem natural.

Yuanyu COO Zhu Lei também disse: "Não vamos expandir cegamente o negócio de imagem e vídeo apenas para seguir o exemplo. Um bom foco nos negócios é importante."

No entanto, para outras empresas iniciantes que estão se desenvolvendo em modelos verticais de grande escala, como direção autônoma e produção industrial, elas podem não ter o conhecimento de alguns dados especiais do setor.

Afinal, na trilha do modelo vertical de grande escala, um fator central da futura competição empresarial são os dados privados e a experiência privada.Quando o processo de uma empresa individual não é conhecido pelos modeladores de grande escala, ela pode ter uma competitividade única.

Além disso, no processo de foco nos negócios, também é necessária a precisão dos dados desde a origem até o pré-treinamento e a saída.

A IA generativa também está recebendo mais atenção regulatória. Recentemente, a China lançou as "Medidas Gerativas de Gerenciamento de Serviços de Inteligência Artificial (Rascunho para Comentário)", que claramente exige que não haja discriminação, o conteúdo gerado deve ser verdadeiro e preciso e informações falsas devem ser evitadas. além de filtragem de conteúdo, otimização de modelo e assim por diante para otimização.

No entanto, se for um defeito inerente à inteligência artificial generativa, é tecnicamente difícil garanti-lo e resolvê-lo completamente.

Além disso, com o surgimento de um modelo de código aberto melhor, haverá um influxo de mais empresas ansiosas para experimentar. Para empresas iniciantes, isso não é competição?

Por exemplo, o atual Llama 2, em 18 de julho, a Meta lançou a versão comercial Llama 2 do primeiro modelo de inteligência artificial de código aberto Llama. Algumas empresas acreditam que, de acordo com os vários documentos de avaliação atuais, além da fraca capacidade de codificação, de fato, muitos locais começaram a abordar o ChatGPT.

Talvez o frenesi da comunidade de código aberto no futuro popularize modelos de grande escala com recursos básicos, e os modelos de grande escala privatizados serão o preço do repolho no futuro. Para ser franco, as empresas podem usar o modelo de privatização de forma muito barata.

Mais importante, Tang Daosheng disse uma vez: "O modelo geral grande tem fortes capacidades, mas não pode resolver os problemas específicos de muitas empresas. Ele pode resolver 70%-80% dos problemas em 100 cenários, mas pode não ser capaz de resolver os problemas específicos de muitas empresas. 100% atendem às necessidades de um determinado cenário da empresa. No entanto, se a empresa realizar um ajuste fino com base no grande modelo da indústria e em seus próprios dados, ela poderá construir um modelo dedicado e criar altamente serviços inteligentes disponíveis."

Claro que esse tipo de modelo de privatização ainda não veio, mas as startups que estão na trilha devem ter tanto oportunidades quanto dificuldades.

Ver original