Uma captura de tela do artigo da Microsoft revelou que o GPT-3.5 tem apenas 20 bilhões de parâmetros ? O círculo de IA ficou chocado, e os internautas gritaram que era ultrajante!

Question

Fonte original: New Zhiyuan![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) Fonte da imagem: Gerado por Unbounded AIGPT-3.5 só tem 20 bilhões de parâmetros?Hoje, o grande círculo de modelos foi explodido por uma captura de tela no artigo da Microsoft, o que está acontecendo?Apenas alguns dias atrás, a Microsoft publicou um artigo sobre arXiv, que propôs um modelo de difusão em pequena escala com apenas 75M parâmetros - CodeFusion.Em termos de desempenho, os 75 milhões de parâmetros do CodeFusion são comparáveis ao modelo 350M-175B de última geração em termos de indicadores de precisão top-1.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) Endereço:O trabalho deste artigo é muito interessante, mas o que atrai a atenção especial de todos é:Quando o autor compara ChatGPT (gpt-3.5-turbo), o número nominal de parâmetros é de apenas 20B!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) Antes disso, o número de parâmetros GPT-3.5 era de 175 bilhões, o que equivale a uma redução de quase dez vezes!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) De acordo com as revelações deste artigo, os internautas também foram à Wikipédia para atualizar a introdução do GPT-3.5 e mudaram diretamente o tamanho do parâmetro para 20B.Assim que a notícia saiu, ela apareceu diretamente na busca quente de Zhihu, e os internautas explodiram.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) Algumas pessoas disseram, apresse-se de volta e tire meu post anterior de destilação modelo para rever e rever.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **É "oolong" ou "fato"? **Assim que as revelações dos internautas vieram à tona, elas instantaneamente provocaram discussões acaloradas.Até agora, mais de 680.000 pessoas vieram assistir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) O irmão mais velho disse que vários autores do artigo também estão usando o Twitter, e estima-se que não demorará muito para que eles expliquem pessoalmente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) Quanto a este misterioso "20B", os internautas também têm opiniões diferentes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) Alguns especulam que este é provavelmente um erro do autor. Por exemplo, era originalmente 120B, ou 200B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) Combinado com várias avaliações na realidade, existem de fato muitos modelos pequenos que podem alcançar resultados semelhantes ao ChatGPT, como o Mistral-7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) Talvez, esta seja também uma confirmação lateral de que o GPT-3.5 realmente não é grande.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) Muitos internautas também pensam que os parâmetros de 20B podem ser precisos, e eles suspiraram:"É inimaginável! Nem o Falcon-180B nem o Llama2-70B conseguem superar o modelo 20B."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) Alguns internautas também acreditam que o GPT-3.5-Turbo é uma versão refinada do GPT-3.5.E este "vazamento" dos parâmetros apenas confirma aqueles rumores de que o GPT-3.5-Turbo não é tão bom quanto o antigo GPT-3.5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) No entanto, de acordo com a documentação oficial da OpenAI, exceto para text-davinci e code-davinci, que não são mais usados, todos os membros da família GPT-3.5 são baseados em gpt-3.5-turbo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **Microsoft lança CodeFusion**O artigo da Microsoft, que revelou que o GPT3.5 tem apenas 20B parâmetros, quer introduzir um modelo de difusão para geração de código.Os pesquisadores avaliaram o CodeFusion, um modelo para a tarefa de gerar código para linguagem natural para regras de formatação condicional (CF) Bash, Python e Microsoft Excel.Experimentos mostraram que o CodeFusion (apenas 75M parâmetros) é comparável ao LLM de última geração (parâmetros 350M-175B) em termos de precisão top-1, e tem excelente desempenho e relação de parâmetros em termos de precisão top-3 e top-5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **Arquitetura do modelo**O CODEFUSION É USADO PARA TAREFAS DE GERAÇÃO DE CÓDIGO, E SEU TREINAMENTO É DIVIDIDO EM DUAS FASES, A PRIMEIRA ETAPA É PRÉ-TREINAMENTO NÃO SUPERVISIONADO E A SEGUNDA ETAPA É AJUSTE FINO SUPERVISIONADO.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) NA PRIMEIRA FASE, O CODEFUSION USA TRECHOS DE CÓDIGO SEM RÓTULO PARA TREINAR O DENOISER E O DECODIFICADOR. Ele também usa uma camada de incorporação treinável, L, para incorporar trechos de código em espaços contíguos.NA SEGUNDA FASE, O CODEFUSION REALIZA AJUSTES FINOS SUPERVISIONADOS, USANDO DADOS DE PARES TEXTO-CÓDIGO. Nesta fase, o codificador, o denoiser e o decodificador estão todos ajustados para executar melhor a tarefa.ALÉM DISSO, O CODEFUSION BASEIA-SE EM PESQUISAS ANTERIORES SOBRE DIFUSÃO DE TEXTO PARA FUNDIR A REPRESENTAÇÃO OCULTA D DO DECODIFICADOR NO MODELO. Isso é para melhorar o desempenho do modelo. Durante o processo de treinamento, em diferentes etapas, o modelo introduz algum ruído e, em seguida, calcula a função de perda para garantir que o trecho de código gerado esteja mais alinhado com o padrão esperado.EM RESUMO, O CODEFUSION É UM PEQUENO MODELO QUE REALIZA TRABALHO DE GERAÇÃO DE CÓDIGO E MELHORA CONTINUAMENTE SEU DESEMPENHO ATRAVÉS DE DUAS FASES DE TREINAMENTO E INGESTÃO DE RUÍDO. Este modelo é inspirado no estudo da difusão de texto e melhora a função de perda fundindo a representação oculta do decodificador para gerar melhor trechos de código de alta qualidade.## **Resultados da Avaliação**A tabela a seguir resume o desempenho do modelo CODEFUSION e de cada modelo de linha de base nas configurações top-1, top-3 e top-5.No top-1, o desempenho do CODEFUSION é comparável e, em alguns casos, até melhor, especialmente em tarefas Python, onde apenas o GPT-3 (175B) tem um desempenho ligeiramente melhor do que o CODEFUSION (75M). No entanto, em termos de top-3 e top-5, o CODEFUSION superou significativamente todos os modelos de linha de base.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) A tabela abaixo mostra os resultados médios de diversidade do CODEFUSION e modelos autorregressivos (incluindo T5, CodeT5, StarCoder, CodeGen e GPT-3) em cada tarefa de benchmark, e examina os resultados gerados pelas primeiras 5 gerações de cada modelo.EM COMPARAÇÃO COM OS MODELOS AUTORREGRESSIVOS, O CODEFUSION GERA RESULTADOS MAIS DIVERSOS E TEM UM MELHOR DESEMPENHO.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) No experimento de ablação, os autores interromperam o processo de denoising e geraram um trecho de código do estado atual no intervalo de tempo passo t∈[0, T]. Normalizar a distância de edição da cadeia de caracteres é usado para medir os resultados obtidos para cada etapa de tempo (em incrementos de cada 100 etapas).ESSA ABORDAGEM AJUDA A RESUMIR E DEMONSTRAR O PROGRESSO PASSO A PASSO DO MODELO CODEFUSION, CONFORME MOSTRADO NA FIGURA ABAIXO.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) Dito tudo isso, qual é exatamente o número de parâmetros no GPT-3.5? Qual é a conexão técnica e outra entre GPT-4 e GPT-3.5?O GPT-3.5 é um conjunto de pequenos modelos especializados ou um modelo generalista? É destilado por um modelo maior ou treinado em dados maiores?As respostas a estas perguntas só serão reveladas quando forem verdadeiramente de código aberto.Recursos: