Uma captura de tela do artigo da Microsoft revelou que o GPT-3.5 tem apenas 20 bilhões de parâmetros ? O círculo de IA ficou chocado, e os internautas gritaram que era ultrajante!

Fonte original: New Zhiyuan

Fonte da imagem: Gerado por Unbounded AI

GPT-3.5 só tem 20 bilhões de parâmetros?

Hoje, o grande círculo de modelos foi explodido por uma captura de tela no artigo da Microsoft, o que está acontecendo?

Apenas alguns dias atrás, a Microsoft publicou um artigo sobre arXiv, que propôs um modelo de difusão em pequena escala com apenas 75M parâmetros - CodeFusion.

Em termos de desempenho, os 75 milhões de parâmetros do CodeFusion são comparáveis ao modelo 350M-175B de última geração em termos de indicadores de precisão top-1.

Endereço:

O trabalho deste artigo é muito interessante, mas o que atrai a atenção especial de todos é:

Quando o autor compara ChatGPT (gpt-3.5-turbo), o número nominal de parâmetros é de apenas 20B!

Antes disso, o número de parâmetros GPT-3.5 era de 175 bilhões, o que equivale a uma redução de quase dez vezes!

De acordo com as revelações deste artigo, os internautas também foram à Wikipédia para atualizar a introdução do GPT-3.5 e mudaram diretamente o tamanho do parâmetro para 20B.

Assim que a notícia saiu, ela apareceu diretamente na busca quente de Zhihu, e os internautas explodiram.

Algumas pessoas disseram, apresse-se de volta e tire meu post anterior de destilação modelo para rever e rever.

## **É "oolong" ou "fato"? **

Assim que as revelações dos internautas vieram à tona, elas instantaneamente provocaram discussões acaloradas.

Até agora, mais de 680.000 pessoas vieram assistir.

O irmão mais velho disse que vários autores do artigo também estão usando o Twitter, e estima-se que não demorará muito para que eles expliquem pessoalmente.

Quanto a este misterioso "20B", os internautas também têm opiniões diferentes.

Alguns especulam que este é provavelmente um erro do autor. Por exemplo, era originalmente 120B, ou 200B.

Combinado com várias avaliações na realidade, existem de fato muitos modelos pequenos que podem alcançar resultados semelhantes ao ChatGPT, como o Mistral-7B.

Talvez, esta seja também uma confirmação lateral de que o GPT-3.5 realmente não é grande.

Muitos internautas também pensam que os parâmetros de 20B podem ser precisos, e eles suspiraram:

"É inimaginável! Nem o Falcon-180B nem o Llama2-70B conseguem superar o modelo 20B."

Alguns internautas também acreditam que o GPT-3.5-Turbo é uma versão refinada do GPT-3.5.

E este "vazamento" dos parâmetros apenas confirma aqueles rumores de que o GPT-3.5-Turbo não é tão bom quanto o antigo GPT-3.5.

No entanto, de acordo com a documentação oficial da OpenAI, exceto para text-davinci e code-davinci, que não são mais usados, todos os membros da família GPT-3.5 são baseados em gpt-3.5-turbo.

## Microsoft lança CodeFusion

O artigo da Microsoft, que revelou que o GPT3.5 tem apenas 20B parâmetros, quer introduzir um modelo de difusão para geração de código.

Os pesquisadores avaliaram o CodeFusion, um modelo para a tarefa de gerar código para linguagem natural para regras de formatação condicional (CF) Bash, Python e Microsoft Excel.

Experimentos mostraram que o CodeFusion (apenas 75M parâmetros) é comparável ao LLM de última geração (parâmetros 350M-175B) em termos de precisão top-1, e tem excelente desempenho e relação de parâmetros em termos de precisão top-3 e top-5.

Arquitetura do modelo

O CODEFUSION É USADO PARA TAREFAS DE GERAÇÃO DE CÓDIGO, E SEU TREINAMENTO É DIVIDIDO EM DUAS FASES, A PRIMEIRA ETAPA É PRÉ-TREINAMENTO NÃO SUPERVISIONADO E A SEGUNDA ETAPA É AJUSTE FINO SUPERVISIONADO.

NA PRIMEIRA FASE, O CODEFUSION USA TRECHOS DE CÓDIGO SEM RÓTULO PARA TREINAR O DENOISER E O DECODIFICADOR. Ele também usa uma camada de incorporação treinável, L, para incorporar trechos de código em espaços contíguos.

NA SEGUNDA FASE, O CODEFUSION REALIZA AJUSTES FINOS SUPERVISIONADOS, USANDO DADOS DE PARES TEXTO-CÓDIGO. Nesta fase, o codificador, o denoiser e o decodificador estão todos ajustados para executar melhor a tarefa.

ALÉM DISSO, O CODEFUSION BASEIA-SE EM PESQUISAS ANTERIORES SOBRE DIFUSÃO DE TEXTO PARA FUNDIR A REPRESENTAÇÃO OCULTA D DO DECODIFICADOR NO MODELO. Isso é para melhorar o desempenho do modelo. Durante o processo de treinamento, em diferentes etapas, o modelo introduz algum ruído e, em seguida, calcula a função de perda para garantir que o trecho de código gerado esteja mais alinhado com o padrão esperado.

EM RESUMO, O CODEFUSION É UM PEQUENO MODELO QUE REALIZA TRABALHO DE GERAÇÃO DE CÓDIGO E MELHORA CONTINUAMENTE SEU DESEMPENHO ATRAVÉS DE DUAS FASES DE TREINAMENTO E INGESTÃO DE RUÍDO. Este modelo é inspirado no estudo da difusão de texto e melhora a função de perda fundindo a representação oculta do decodificador para gerar melhor trechos de código de alta qualidade.

Resultados da Avaliação

A tabela a seguir resume o desempenho do modelo CODEFUSION e de cada modelo de linha de base nas configurações top-1, top-3 e top-5.

No top-1, o desempenho do CODEFUSION é comparável e, em alguns casos, até melhor, especialmente em tarefas Python, onde apenas o GPT-3 (175B) tem um desempenho ligeiramente melhor do que o CODEFUSION (75M). No entanto, em termos de top-3 e top-5, o CODEFUSION superou significativamente todos os modelos de linha de base.

A tabela abaixo mostra os resultados médios de diversidade do CODEFUSION e modelos autorregressivos (incluindo T5, CodeT5, StarCoder, CodeGen e GPT-3) em cada tarefa de benchmark, e examina os resultados gerados pelas primeiras 5 gerações de cada modelo.

EM COMPARAÇÃO COM OS MODELOS AUTORREGRESSIVOS, O CODEFUSION GERA RESULTADOS MAIS DIVERSOS E TEM UM MELHOR DESEMPENHO.

No experimento de ablação, os autores interromperam o processo de denoising e geraram um trecho de código do estado atual no intervalo de tempo passo t∈[0, T]. Normalizar a distância de edição da cadeia de caracteres é usado para medir os resultados obtidos para cada etapa de tempo (em incrementos de cada 100 etapas).

ESSA ABORDAGEM AJUDA A RESUMIR E DEMONSTRAR O PROGRESSO PASSO A PASSO DO MODELO CODEFUSION, CONFORME MOSTRADO NA FIGURA ABAIXO.

Dito tudo isso, qual é exatamente o número de parâmetros no GPT-3.5? Qual é a conexão técnica e outra entre GPT-4 e GPT-3.5?

O GPT-3.5 é um conjunto de pequenos modelos especializados ou um modelo generalista? É destilado por um modelo maior ou treinado em dados maiores?

As respostas a estas perguntas só serão reveladas quando forem verdadeiramente de código aberto.

Recursos:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)