Por trás do modelo mais poderoso de código aberto comercial da Meta: competição gigante para salvar vidas, Musk e Apple encontram outro caminho

2023-08-04 08:37:59

Texto: Guo Xiaojing, Tencent Technology

Fonte da imagem: Gerada por Unbounded AI

Em 19 de julho, a Meta anunciou o lançamento oficial do modelo de linguagem grande Llama2 em seu site oficial. Esta é a versão mais recente do modelo de linguagem grande da Meta e o primeiro modelo comercial de linguagem grande de código aberto da Meta. Ao mesmo tempo, o Microsoft Azure também anunciou que ele cooperará com o Llama2 em profundidade.

De acordo com os dados oficiais da Meta, o Llama 2 melhorou seus dados de treinamento em 40% em comparação com a geração anterior, incluindo 3 versões de 7 bilhões, 13 bilhões e 70 bilhões de parâmetros. O modelo pré-treinado do Llama 2 foi treinado em 2 trilhões de tokens com o dobro do comprimento de contexto do Llama 1, e seu modelo ajustado foi treinado em mais de 1 milhão de anotações humanas.

Diz-se que seu desempenho é comparável ao GPT-3.5 e também é conhecido como o melhor modelo grande de código aberto. Assim que a notícia foi divulgada, a mídia e a indústria chegaram a concluir que a comercialização de código aberto do Llama2 mudará o cenário competitivo no campo de modelos grandes. Qual é o tamanho do impacto deste incidente? Que tipo de impacto isso trará para a indústria? Convidamos duas pessoas do setor para um bate-papo. Um deles é Zhou Songtao, vice-gerente geral do Centro de P&D de Produtos da Leo Group Digital Technology Co., Ltd.. Ele liderou a equipe para quase avaliar a maioria dos mainstream grandes modelos em casa e no exterior, o outro é a Sra. Jiao Juan, presidente do Anxinyuan Cosmic Research Institute, que tem observado profundamente a ecologia da indústria de tecnologia em casa e no exterior por muitos anos.

A seguir estão os principais pontos de vista dos dois:

① Llama2 considera parâmetros de modelo, consumo de tempo, consumo de energia de computação e outros aspectos de forma abrangente. Comparado com GPT-3.5, é confiável.

② A inteligência artificial generativa trará mudanças radicais em todo o sistema de código aberto.

③ No futuro, o código aberto e o código fechado irão definitivamente balançar um ao outro, e um padrão de jogos mútuos e competição será formado neste campo por um bom tempo.

④ O código aberto comercial do Llama2 não reduzirá necessariamente o custo para os empreendedores usarem modelos grandes, mas pode fazer com que os provedores de serviços de modelos grandes iniciem uma guerra de preços, o que é uma boa notícia para usuários e empreendedores.

⑤ A competição de gigantes estrangeiros no campo da IA não é mais tão simples quanto o desenvolvimento da segunda curva. A competição é acirrada e decisiva, e até salva vidas. Vale a pena ponderar as razões por trás disso.

A seguir, uma seleção do conteúdo da conversa:

**Tecnologia Tencent: Do ponto de vista dos profissionais ou aplicadores da indústria, como avaliar um modelo grande? **

Zhou Songtao: MMLU é a estrutura de avaliação de modelo em larga escala mais amplamente usada no mundo. Ela considera o conhecimento abrangente e a capacidade de 57 disciplinas, de humanidades a ciências sociais, ciências e engenharia. A maioria de nossas avaliações é baseada nessa estrutura. Mas nosso setor é o setor de publicidade, com base nos atributos do setor de publicidade, adicionaremos alguns outros itens de avaliação.

Também dissemos na reunião de gestão do grupo que o foco da indústria publicitária não é a criatividade, mas o controle. Os resultados gerados devem ser 100% consistentes com o anunciante, seu desempenho de produto, aparência, logotipo, etc. Somente após essas reduções serem alcançadas pode haver espaço para divergência e imaginação. Portanto, faremos um teste separado para o controle da alucinação do modelo grande. No entanto, a maioria dos grandes modelos de linguagem e modelos de difusão para geração de imagem no mercado são difíceis de atender totalmente às necessidades dos anunciantes. Após o lançamento do modelo grande de uso geral, ainda há um longo caminho a percorrer antes de ser totalmente comercializado.

Além disso, o mais importante que consideramos é a questão do custo: o modelo de código fechado possui um sistema de cotação direta e geralmente medimos o custo de milhares de Tokens. Para o modelo de código aberto, há mais links a serem medidos e calculados, desde a implantação até o ajuste fino até o raciocínio online final, quanto de poder de computação é consumido e quanto é o custo de desenvolvimento e custo de dados investido na manutenção do aberto modelo fonte.

O feedback de qualidade do modelo grande mais a estimativa de custo podem formar uma avaliação do modelo. Em uma frase simples, Quanto maior o desempenho de custo, mais popular.

Jiao Juan: Do nosso ponto de vista, o mais importante é como definir alguns requisitos verticais. Porque em escala global, não importa se é uma empresa de tecnologia pesada ou uma empresa de Internet, pode não haver muitas empresas que sejam realmente capazes de definir requisitos, então essa proposta pode ser convertida em——**Pode ser em larga escala as próprias empresas modelo estabelecem alguns requisitos verticais? Se não, podemos trabalhar com parceiros ecológicos para explorar uma melhor direção vertical de categoria. Claro, seria melhor se certas empresas pudessem ter seu próprio acúmulo de dados e acúmulo de experiência em uma direção específica. Essa é a nossa perspectiva, na perspectiva de aplicar e definir as necessidades das indústrias segmentadas verticalmente.

**Tecnologia Tencent: O Llama2 pode realmente superar ou igualar o GPT-3.5 em termos de desempenho? **

Zhou Songtao: O modelo grande para Llama2 ainda está em avaliação e levará cerca de 2 semanas. Mas a partir de nosso estudo do papel e de algumas avaliações simples feitas até agora, podemos fazer algumas comparações gerais.

Existem várias diferenças entre a fase de pré-treinamento e o modelo original do GPT, e essas mudanças não foram feitas por outras empresas modelo antes. A primeira é transformar o mecanismo de atenção multicabeça do Transformer tradicional em um mecanismo de grupo de fragmentos no estágio de pré-treinamento. É um pouco semelhante ou imita a tecnologia de sharding que usamos quando estávamos fazendo processamento de big data e processando dados paralelos em grande escala. Agrupe um grande número de consultas (solicitações) exigidas pela atenção em grupos e coloque cada grupo em uma unidade de treinamento, de modo que a eficiência e a velocidade do paralelismo teoricamente sejam muito melhoradas. Acho que esta parte é uma nova mudança feita pela Meta com base na experiência anterior de processamento paralelo em larga escala.

Com base nessa mudança, acho que eles são teoricamente muitas vezes superiores aos modelos grandes existentes em termos de requisitos de energia de computação e consumo de tempo. Estimo que o Llama2 vai começar em janeiro de acordo com o comunicado deles, calculado de acordo com o tempo de lançamento, deve ser menor que o tempo pré-treino do Llama1 porque tem um número maior de parâmetros do que o Llama1. Desta forma, o ciclo possível de várias rodadas de treinamento é comprimido. Isso está intimamente relacionado ao GQA mencionado no documento. Neste ponto, deve exceder GPT 4. Embora não saibamos o número específico de GPT-4, de acordo com especulações externas, GPT-4 é muito maior que GPT-3 e GPT-3.5.

Para o GQA, atualmente sentimos que o método de processamento do **GQA pode realmente melhorar a velocidade de treinamento para usuários com placas de poder de computação suficientes, especialmente recursos de poder de computação paralela GPU. **No entanto, testes e análises de pares descobriram que esta função tem altos requisitos no tamanho do pool de poder de computação e hardware. Por razões bem conhecidas, os desenvolvedores na China continental têm poucos recursos de computação paralela de GPU em larga escala, então **GQA pode ter um impacto negativo sobre nós. É insípido. **

Além disso, o segundo ponto é que, na fase de ajuste, sabemos que o sistema GPT fez processamento de dados em camadas durante a normalização, o que torna os resultados do treinamento de dados muito precisos, mas também consome muito poder de computação. Mas o Llama2 usa uma solução diferente, que é adicionar coeficientes de peso com base no processamento em camadas, o que é muito útil para melhorar a eficiência e manter a precisão, além de economizar energia de computação. Esses dois pontos são otimizações feitas durante a fase de pré-treinamento. **

Além disso, o artigo também mencionou que a posição de incorporação do Llama1 é fixa e não pode ser modificada. Mas no Llama2, isso pode ser ajustado dinamicamente, o que também é um ponto positivo. Também estamos muito interessados nisso e queremos saber que tipo de efeito prático isso pode produzir.

Além disso, o Llama2 obviamente absorveu alguma experiência de engenharia das séries Llama1 e GPT, ou seja, a experiência bem-sucedida no estágio RHLF foi reutilizada e deve ser bastante aprimorada.

O último são os parâmetros de razão, o que vi até agora são os parâmetros que divulgou em seu site oficial. Existem mais de 1 milhão de parâmetros, incluindo seu feedback artificialmente aprimorado, e a parte ajustada atinge mais de 100.000. Se ele ousar liberar esses parâmetros, isso significa que a Meta tem confiança para considerar de forma abrangente os parâmetros do modelo, consumo de tempo e consumo de energia de computação.

**Tecnologia Tencent: Por que o limite para código aberto comercial está definido para não mais de 700 milhões de usuários ativos mensais? **

Jiao Juan: Brincadeira, acho que esse regulamento é “muito aberto”—— Meta jogou uma carta brilhante, já que não pode impedir que outros pesquisem, então deixe para lá. Em essência, é resultado de jogos internos. Os indicadores financeiros da Meta não têm sido muito bons desde o início de 2021, por isso busca a segunda curva de crescimento. Em outubro de 2021, o Meta mudou seu nome para All in Metaverse, mas não viu nenhuma melhora substancial. Lançou o atual modelo grande, que pode ser integrado com hardware próprio. É equivalente a jogar um cartão brilhante. Requer hardware, software e sistema operacional. Espera ter seu próprio lugar na era da IA, mas ao mesmo tempo como código aberto, não quer ser muito benéfico para os concorrentes. Como você pode ver, os 700 milhões de produtos ativos mensais incluem YouTube 2,5 bilhões, Apple 1,8 bilhão, Microsoft 1,4 bilhão, Samsung 1 bilhão, LinkedIn 900 milhões, Snapchat 750 milhões, etc.

**Tecnologia Tencent: Qual é a diferença essencial entre código aberto comercial e licenciamento de pesquisa? Que impacto pode haver no ecossistema de código aberto? **

Zhou Songtao: Após o surgimento do grande modelo de linguagem, a questão do código aberto também se tornou muito complicada. Todo mundo fez muitos ajustes na definição de código aberto e nesta regra. Isso envolverá que você abra o código do próprio algoritmo, pesquisa de dados de código aberto e assim por diante. Para o julgamento do código aberto geral do novo modelo de linguagem ou modelo generativo: primeiro, depende se o código do algoritmo é de código aberto e, em seguida, se o conjunto de números de treinamento será de código aberto. O terceiro é baseado no algoritmo de código aberto.Se eu fizer um ajuste fino ou outro processamento, que tipo de restrições sua política de autorização terá. A quarta é usar os resultados de sua inferência de modelo, se o lado do modelo tem controle. Geralmente julgamos a partir dessas direções se o "código aberto" deste modelo é realmente de valor de aplicação para nós.

Em relação à pesquisa de código aberto e código aberto comercial, lembro que o exemplo mais típico é a empresa Stability AI. Lembro que duas semanas antes do LLama2 ser open source, também foi lançada a versão XL do StabilityAI, ou seja, apenas a pesquisa está autorizada a ser código aberto, e está claramente estipulado que os modelos podem ser usados. Faça pesquisas com dados, por exemplo, se você é pesquisador ou pertence a uma determinada universidade, mas se usar esse modelo para comercialização, é totalmente proibido, e você precisa solicitar autorização separadamente para usá-lo.

A autorização de código aberto de grandes modelos, eu acho, mudou muito em relação à lógica original do código aberto. Os links e processos são configurados com muito cuidado. É possível que a inteligência artificial generativa traga mudanças radicais para todo o código aberto sistema fonte. **

**Tencent Technology: Que tipo de impacto o código aberto comercial do Llama2 terá no cenário de competição de modelos grandes? **

Jiao Juan: Na competição de gigantes estrangeiros, existe um estilo, que é tornar seus produtos e serviços reconhecíveis, então Meta é chamado de Metaverso, e Apple deve ser chamado de Novo Universo. Se outros fecharem a fonte, ocuparei o código aberto . O código aberto no passado pode ter sido feito por geeks com senso de liberdade, e o pensamento era relativamente simples. Mas agora que um grande corpo empresarial está liderando este assunto, é mais sobre interesses comerciais.

Zhou Songtao: Acho que os três elementos do cenário competitivo do sistema generativo de inteligência artificial - poder de computação, algoritmos e modelos - não mudaram. Na verdade, o modelo representa apenas um terço dos fatores competitivos. Se o modelo for alterado, ele pode mudar apenas um terço ou pouco mais de um terço. Estimo que seja mais otimista, e pode atingir cerca de 45%. **

O padrão em casa e no exterior ainda não é o mesmo, e o padrão no nível do algoritmo estrangeiro é mais óbvio. Os dados externos são basicamente limpos e vetorizados, o conjunto de dados de treinamento já é suficiente e a vantagem competitiva em termos de dados não é óbvia, a menos que você tenha dados proprietários para um determinado setor. O poder de computação não é um lugar onde os gigantes estrangeiros podem aumentar a diferença. Os gigantes realmente têm força para lutar pelo poder de computação.

Em primeiro lugar, as empresas nacionais com algoritmos básicos subjacentes são realmente muito limitadas; em segundo lugar, o grau de limpeza e vetorização dos dados domésticos não é alto. No início, se uma empresa investisse muito poder no processamento de dados estruturados, poderia compensar a falta de poder de computação e algoritmos. Em terceiro lugar, o país realmente carece de poder de computação no curto prazo. Portanto, o impacto do código aberto LLama2 no cenário doméstico não é fácil de julgar.

Além disso, em países estrangeiros, o Google é o verdadeiro pioneiro em toda a inteligência artificial generativa, e então quase se tornou um mártir. É porque o papel de origem de toda a inteligência artificial generativa é "Atenção é tudo que você precisa" e, em seguida, incluindo o modelo de código aberto mais antigo T5 é, na verdade, o Google. O Google costumava se orgulhar da multidão. Inesperadamente, um azarão, OpenAI, foi morto mais tarde. Os primeiros GPT-1 e GPT-2 eram de código aberto, e o GPT-3 era de código fechado depois de ser de código aberto. Quando o OpenAI entra no mercado, o código aberto é o mainstream de toda a inteligência artificial generativa.

A OpenAI encontrou a Microsoft nessa época e também possuía um poder de computação muito caro, tornando-se um forte concorrente do Google. A partir de 2022, o mercado de inteligência artificial generativa começará a entrar no sistema de código fechado. A OpenAI dominou o algoritmo, adicionou o poder de computação e os dados da Microsoft e fechou o código do produto, e o produto se tornou um sucesso em nível de fenômeno, e tanto a Microsoft quanto a OpenAI se beneficiaram com isso. Acho que quando a Meta decidiu entrar neste campo, estima-se que estudou cuidadosamente a história do desenvolvimento desde o início. Agora que o OpenAI se retirou do campo de código aberto para o código fechado, usarei o método de código aberto para derrotar sua magia novamente.

Antes disso, a Meta também viu a vitalidade de várias pequenas empresas após o código aberto, especialmente Stability AI. Esta empresa não tem uma base profunda. A empresa ainda tem muitas controvérsias.

Lembro que o Llama1 anunciou seu código aberto em março. Naquela época, ele também disse que era "código aberto acidentalmente" Então a Stability AI também disse que eu acidentalmente vazei o código, então também era código aberto. O caminho geral é que o Google deu o tom do código aberto e, em seguida, a OpenAI e a Microsoft o transformaram novamente no sistema de código fechado e, em seguida, a Meta e a Stability AI o colocaram no código aberto novamente. Acho que, no futuro, **Open fonte e fonte fechada devem estar se balançando, e um padrão de jogos mútuos e competição será formado neste campo por um longo tempo. **

**Tecnologia Tencent: Meta open source Llama2 é um último recurso ou uma escolha estratégica ativa? **

Jiao Juan: Deve ser uma escolha estratégica ativa, porque os três principais concorrentes no campo AR, Meta, Microsoft e Google, lutam há mais de dez anos. A Meta lançou rapidamente o LLama2, pelo menos mais rápido que o Google. A escolha de código aberto e código fechado não eliminará algumas demandas essenciais de interesse, então acho que pode não ser tão significativo mudar completamente o padrão de competição. A segunda é que a situação doméstica é diferente, então o padrão de competição doméstica precisa ser observado novamente.

Seja open source ou closed source, é essencialmente uma escolha estratégica entre essas empresas ao redor do mundo diante de novas grandes oportunidades. Ao fazer esforços para traçar a frente, também espero capturar o interior de Bier o máximo possível. A competição de gigantes estrangeiros não é mais tão simples quanto desenvolver a segunda ou a enésima curva de crescimento. A competição é acirrada e decisiva, até mesmo um pouco salvadora.

Acho que esta é a discussão mais digna de todos: que tipo de ambiente ou histórico está por trás de suas ações, para que eles façam isso de maneira tão decisiva, como uma corrida armamentista.

Também aconteceram algumas coisas notáveis recentemente. A empresa X-AI de Musk foi estabelecida. Ela quer re-entender o mundo físico real. Todos os gigantes estão olhando para a realização real da AGI. Este mapa está ficando cada vez maior. No entanto, o novo mundo dos negócios e o novo cenário de negócios sempre exigem alguns novos aplicativos e produtos populares para impulsioná-los. Pode ser difícil conseguir isso em 2023. Podemos colocar nossa esperança em 2024, talvez os óculos MR da Apple sejam uma nova oportunidade.

**Tencent Technology: Também vimos que dois outros gigantes estrangeiros, Musk e Apple, não fizeram anúncios de alto nível sobre seu progresso no campo de modelos em grande escala. O que você acha disso? **

Jiao Juan: Eles estão apenas se segurando por enquanto, e o que é certo é que o que eles lançam definitivamente não será chamado de grande modelo. Acho que podemos nos concentrar no próximo nível, a inteligência incorporada. Nesse sentido, Musk é o menos preocupado. A maior vantagem da Apple está na combinação de software e hardware.

Zhou Songtao: Nós mesmos o testamos aproximadamente, e o chip **M2 pode competir com os cartões da Nvidia em termos de poder de computação de ponto flutuante. ** A Apple pode assumir a integração de software e hardware, o que na verdade está além do atual cenário competitivo de modelos grandes.

A inteligência incorporada, penso eu, pode ser um novo marco no desenvolvimento da inteligência artificial geral no futuro, porque uma vez que você tenha uma forte capacidade de raciocínio, ela será definitivamente estendida ao mundo físico e o ponto central do controle do mundo físico. é incorporá-lo no corpo ou em sensores no mundo físico, então este é um sistema que se torna inteligência incorporada. Como o Sr. Zhou disse agora há pouco, isso se transformou em uma série de empresas Musk.

Quando combinamos software e hardware para analisar toda a inteligência artificial geral, você descobrirá que o cenário da concorrência mudou novamente. Não é mais Google, Meta e IA aberta que estão competindo, mas pode haver mais empresas de hardware se juntando em.

**Tecnologia Tencent: código aberto comercial do Llama2, é possível reduzir o custo de iniciar um modelo em grande escala? **

Zhou Songtao: Não tenho certeza sobre isso agora, porque, embora economize no custo do aluguel de APIs, você descobrirá que o grande corte de preço do OpenAI em 15 de junho é de quase 10%, então o modelo de código fechado também está lutando contra um preço guerra. Pelo contrário, se o modelo de código aberto for usado, quanto custo de hardware, custo de poder de computação e custo de dados serão necessários? Os custos ocultos são difíceis de estimar. Falando simplesmente do código aberto do LLama2, acho que não é necessariamente um caminho econômico para o empreendedorismo.

Em relação ao custo de raciocínio, atualmente medimos e combinamos os artigos de avaliação de testadores estrangeiros e descobrimos que, para alguns tipos específicos de tarefas de raciocínio, como classificação ou fluxo de trabalho langchain, a eficiência de raciocínio e o consumo de tempo do Llama2 são reduzidos, mas para outros tipos de tarefas, **Se comparado com a versão instantânea do GPT-3.5-turbo-0615, pode não ser necessariamente mais barato (apenas em termos de consumo de energia de computação de inferência); **A versão original atual é muito fluente e precisa na compreensão Chinês, mas a expressão chinesa é quase 0, **Portanto, os empreendedores chineses que desejam usar totalmente o Llama2 devem gastar muito dinheiro para resolver o ajuste fino ou a orientação da expressão chinesa ou esperar que a comunidade de código aberto forneça uma expressão chinesa versão... Este custo não é baixo. **

Além disso, o código aberto comercial do **Llama2 pode de fato fazer com que os provedores de serviços em grande escala iniciem uma guerra de preços, o que é uma boa notícia para usuários e empresários. **

Jiao Juan: Francamente falando, ainda estou ansioso por alguns modelos industriais ou modelos verticais na China. Eu pessoalmente escolhi algumas empresas promissoras, que se caracterizam por um sólido desempenho neste setor e experiência em acúmulo contínuo de dados e construção de plataformas. Além disso, acho que essa rodada não é uma questão de o ingresso ser caro ou não, mas de você ser caro ou não, todo mundo está enfrentando uma transformação.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

3 Curtidas

Recompensa
3
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
Gate 2025 Q2 Report Released
2k Popularidade
Gate Derivatives Volume Hits New High
4k Popularidade
CPI Data Incoming
32k Popularidade
4Join Gate VIP to Win MacBook
29k Popularidade
5MicroStrategy Buys More Bitcoin
496 Popularidade
6BTC Hits New High
111k Popularidade
7My Gate Moments
26k Popularidade
8VIP Exclusive Airdrop Carnival
26k Popularidade
9Fed June Meeting Minutes
7k Popularidade
10Gate Alpha Trading Share
14k Popularidade

Marcar

sitemap