Bytes "unbox" todos os grandes modelos da OpenAI, revelando o caminho de evolução do GPT-3 para o GPT-4! explodiu Li Mu

Fonte do artigo: qubits

Como exatamente o GPT-3 evoluiu para GPT-4?

Bytes deu OpenAI todos os modelos grandes uma operação de "unboxing".

Os resultados realmente descobriram o papel específico e o impacto de algumas tecnologias-chave na evolução do GPT-4.

Como o quê:

  • O SFT foi o facilitador da evolução do GPT inicial
  • Os maiores contribuintes para os recursos de codificação do GPT são SFT e RLHF
  • Adicionar dados de código ao pré-treinamento melhora a capacidade das versões subsequentes do GPT em todos os aspetos, especialmente inferência...

Depois de começar um negócio, o touro de IA Li Mu**, que estava muito ocupado, também apareceu aos olhos do público depois de muito tempo e elogiou esta pesquisa.

Os internautas ainda elogiaram:

Este é o primeiro trabalho até agora a desencaixotar totalmente todos os modelos OpenAI, respeito.

Além de algumas novas descobertas, também confirma algumas conjeturas existentes:

Por exemplo, o GPT-4 não é alarmista sobre se tornar estúpido, e esta avaliação descobriu que há um óbvio "fenômeno gangorra" no caminho da evolução do GPT, ou seja, algumas habilidades aumentam e outras diminuem durante a evolução do modelo.

Isso coincide com os sentimentos anteriores dos internautas.

Como diz o próprio autor:

Este trabalho pode fornecer informações valiosas sobre o caminho evolutivo do GPT-3 para o GPT-4.

Em outras palavras, através dele, podemos ter um vislumbre do "caminho de sucesso" do modelo GPT e fornecer experiência efetiva para o próximo trabalho de construção de modelo em grande escala.

Então, o que exatamente "abre", vamos dar uma olhada no artigo.

Explorando a evolução do GPT-3 para GPT-4

O primeiro diagrama evolutivo foi resumido pelos autores com base em informações disponíveis publicamente.

Como você pode ver, ele marca quais tecnologias cada modelo intermediário sofreu (como ajuste fino de código, SFT/FeedME, etc.) que evoluíram do GPT-3 original para 3.5 e agora para 4.

De davinci a gpt-4-0613, os bytes testaram todas as 7 principais habilidades de cada geração de GPT, como matemática, codificação e raciocínio.

### 1. SFT: O Facilitador da Evolução Inicial do GPT

Primeiro, na família GPT-3, o davinci original (GPT-3) evoluiu para text-davinci-001 supervisionando o ajuste fino do SFT e sua variante, FeedME.

Isto dá a este último um aumento de desempenho em quase todas as tarefas:

Uma representação mais intuitiva é mostrada na figura abaixo (o "fandom" é o texto evoluído-davinci-001).

GPT então passou para a série 3.5, onde o código mais básico-davinci002 evoluiu para text-davinci-002 usando a mesma tecnologia.

No entanto, o efeito desta operação evolutiva não é realmente grande, e o desempenho do GPT só foi melhorado por algumas vezes, e mais não aumentou, mas diminuiu.

Aqui, os autores levam à sua primeira conclusão, a saber:

O SFT só funciona em modelos de base mais fracos e tem pouco efeito em modelos mais fortes.

Um fenômeno semelhante pode ser visto em modelos de código aberto (esta revisão também testou Llama1 e 2, PaLM2-L, Claude 2, etc.):

Além do Llama-65B original, o SFT conseguiu melhorar seu desempenho no benchmark MMLU, mas todos os Llama2-70Bs que usaram melhorias no SFT mostraram apenas pequenas melhorias no Open LLM Leaderboard.

Resumo: Na etapa GPT3, a tecnologia SFT desempenhou um papel fundamental na evolução do modelo.

2, RLHF e SFT: Contribuidores para a melhoria da capacidade de codificação

Após a série GPT3.5, a partir de text-davinci-002, a OpenAI começou a introduzir uma nova tecnologia baseada no algoritmo PPO RLHF, resultando em text-davinci-003.

Neste ponto, o seu desempenho na maioria dos benchmarks é igual ou ligeiramente pior do que o seu antecessor, indicando que o efeito não é particularmente óbvio (e o mesmo é verdade para modelos de código aberto).

Com uma exceção: a tarefa de codificação, que aumentou quase 30 pontos.

Reminiscente do code-davinci002 anterior usando a tecnologia SFT para evoluir para text-davinci-002, o que fez com que o desempenho geral diminuísse, a tarefa de codificação não foi afetada, mas a pontuação aumentou——

Os autores decidiram verificar o efeito do SFT e RLHF na capacidade de codificação de modelos grandes.

Aqui, eles mediram pontuações como pass@1 (probabilidade de 1 passagem de 1 amostra), pass@100 (probabilidade de 100 passagens de 100 amostras) de várias gerações de modelos GPT.

Como resultado, o modelo usando a tecnologia SFT e RLHF mostrou uma melhoria significativa no pass@1 e uma ligeira diminuição no pass@100 em comparação com o modelo base.

O que isso significa?

O autor explica:

pass@100 descreve a capacidade de codificação intrínseca do modelo, enquanto pass@1 representa a capacidade de codificação única e livre de bugs do modelo.

pass@100 ligeira diminuição sugere que o SFT e o RLHF ainda têm o chamado imposto de alinhamento nas tarefas de codificação, como qualquer outra tarefa.

No entanto, SFT e RLHF foram capazes de aprender habilidades pass@1 pass@100, ou seja, transformar habilidades intrínsecas (mas exigem muitas tentativas) em codificação única e livre de bugs, resultando em um aumento significativo na pass@1.

Olhando para os resultados cuidadosamente, podemos ver que o gpt-3.5-turbo-0301 melhora muito o pass@1 através de SFT e RLHF, o que é uma boa notícia para a otimização de desempenho de modelos pequenos.

E isso não é tudo, dado que os autores observaram anteriormente que o GPT-4 foi capaz de resolver o problema após várias tentativas em algumas tarefas complexas de inferência.

Combinado com as observações acima, eles resumiram como:
Os LLMs ainda podem usar SFT e RLHF para transformar continuamente suas capacidades intrínsecas (mas exigem várias tentativas) em recursos únicos de resolução de problemas, aproximando-se do limite superior dos recursos dos LLMs.

A implicação é que o GPT-4 pode ser ainda mais forte.

3. O código é adicionado ao pré-treinamento, que é o mais útil para inferência

Na estrada da evolução do GPT4, 2 modelos especiais também surgiram:

código-cushman-001 (Codex-12B) 和code-davinci-002。

A primeira é a primeira tentativa da OpenAI de treinar um modelo usando dados de código e, apesar de sua pequena escala, também alcançou bons recursos de código.

Este último é o modelo base do GPT3.5, que é o resultado do treinamento com código RLHF+ com base no GPT3, ou seja, um pré-treinamento híbrido de texto e código.

Pode-se ver que ele supera muito o GPT-3 (não apenas na capacidade de codificação), e até mesmo supera o GPT-3.5-turbo-0613 em algumas tarefas de inferência (como BBH).

Os autores afirmam:

Isso mostra que a adição de dados de código ao pré-treinamento pode melhorar de forma abrangente os recursos dos LLMs, especialmente a inferência.

4, fenómeno "gangorra"

Comparando os modelos de API OpenAI de março de 2023 e junho de 2023, podemos realmente ver este fenômeno:

Em comparação com o gpt-3.5-turbo-0301, o gpt-3.5-turbo-0613 atualizado tem um bom desempenho em Human (53.9 -> 80.0), mas cai significativamente em MATH (32.0 -> 15.0).

O GPT-4-0613 superou o GPT-4-0314 (78,7 -> 87,2) no DROP, mas também viu uma queda (82,2 -> 68,7) no MGSM.

Segundo os autores:

O "fenômeno gangorra" pode se tornar um obstáculo no caminho para a AGI para LLMs, porque a AGI enfatiza a "inteligência geral", e exige excelente desempenho em todas as tarefas, exigindo que os modelos não sejam "tendenciosos".

Aqui, eles também pediram à comunidade para prestar atenção a esta questão e promover conjuntamente a pesquisa sobre o desenvolvimento equilibrado de grandes modelos.

Ajude os grandes profissionais de modelos a encontrar o seu caminho

Todos os resultados acima são baseados em GPT-Fathom -

A Byte propôs recentemente uma grande ferramenta de avaliação de modelos.

Presumivelmente, todos devem ter perguntas:

Já existem muitos grandes rankings de modelos e ferramentas de avaliação, então por que criar uma nova abordagem?

Segundo os autores, em comparação com os métodos de avaliação existentes, a escala GPT-Fathom é mais uniforme e os resultados são reprodutíveis.

Os grandes profissionais de modelos podem usá-lo para esclarecer onde está a lacuna entre eles e o modelo líder, de modo a melhorar seus produtos de forma direcionada.

Especificamente, o GPT-Fathom resolve principalmente três deficiências de outros grandes métodos de avaliação de modelos:

Critérios de definição inconsistentes: Não existe um padrão unificado para o uso de configurações como cadeia de pensamento (CoT), tamanho da amostra, etc., e métodos de avaliação de resposta Modelo incompleto e coleção de tarefas: A capacidade de testar a atenção não é abrangente e há falta de foco em modelos anteriores Falta de investigação sobre a sensibilidade do modelo

A fim de refletir de forma mais intuitiva as características do GPT-Fatham, o autor compara algumas listas específicas existentes, que podem ser resumidas na tabela a seguir:

Entre eles, a avaliação de sensibilidade encontrou problemas que os padrões de teste anteriores não conseguiram identificar.

Em comparação com o GPT, outros modelos são altamente sensíveis a palavras rápidas, e uma ligeira mudança levará a uma saída completamente diferente, sugerindo que ainda há uma grande lacuna entre a robustez de outros modelos e o GPT.

Por exemplo, no conjunto de dados TriviaQA, uma ligeira mudança na palavra pronta reduziu a pontuação de Llama 2-70B em um quarto, enquanto os modelos da série GPT não mudaram significativamente.

Além disso, fatores como CoT, tamanho da amostra e variância amostral também são incluídos nos testes de sensibilidade.

No futuro, os autores planejam continuar a expandir o GPT-Fathom a partir de três dimensões: tipos de capacidade, conjuntos de dados de teste e modelos, e apoiarão a avaliação de diálogo multi-round, multimodalidade e outras capacidades, bem como aumentar o teste de vários conjuntos de dados e modelos.

Os dois coautores do GPT-Fatham são Yuyu Zhang, pesquisador do Applied Machine Learning Research Group da Byte, e Shen Zheng, estagiário.

Shen Zheng é estudante de mestrado na Universidade de Illinois em Urbana-Champaign (UIUC).

Além disso, quatro pesquisadores, incluindo Yijie Zhu, da Bytes, e o professor Kevin Chen-Chuan Chang, da UIUC, também estiveram envolvidos no estudo.

Endereço:

Links de referência:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)