Derrotar GPT-4 pela primeira vez?70 bilhões de parâmetros Xwin-LM atinge o topo do Stanford Alpaca_, modelo 13B vence ChatGPT

Fonte: Xinzhiyuan

Introdução: O primeiro lugar do GPT-4 em Stanford Alpaca foi na verdade arrebatado por um azarão.

Aparece o primeiro modelo a superar o GPT-4 no Alpaca!

Em junho deste ano, assim que a lista Alpaca foi anunciada, o GPT-4 assumiu o primeiro lugar com liderança absoluta, com uma taxa de vitórias superior a 95%.

Três meses depois, um azarão chamado Xwin-LM realmente puxou o GPT-4, que estava firmemente no topo da lista, do TOP 1?

endereço do projeto:

Além disso, o Xwin-LM também conquistou três primeiros lugares sem exceção na competição com os mesmos modelos de parâmetros:

Xwin-LM-70B-V0.1: A taxa de vitórias contra Davinci-003 no benchmark Alpaca atingiu 95,57%, ficando em primeiro lugar em Alpaca. É também o primeiro modelo a ultrapassar o GPT-4 no Alpaca. Além disso, sua taxa de vitórias contra o GPT-4 é de 60,61. Xwin-LM-13B-V0.1: Alcançou uma taxa de vitória de 91,76% no Alpaca, ficando em primeiro lugar entre todos os modelos 13B. Xwin-LM-7B-V0.1: Alcançou uma taxa de vitória de 87,82% no Alpaca, ficando em primeiro lugar entre todos os modelos 7B.

Xwin-LM: 70 bilhões de parâmetros superam o GPT-4

Xwin-LM é ajustado com base no Llama 2. Este modelo é projetado para desenvolver e abrir tecnologias de alinhamento de código aberto para grandes modelos de linguagem, incluindo ajuste fino supervisionado (SFT), modelo de recompensa (RM), amostragem de rejeição e reforço de feedback humano aprendizagem (RLHF). espere.

1. Avaliação de desempenho

Os pesquisadores avaliaram a taxa de vitórias do Xwin-LM em relação ao Text-Davinci-003, ChatGPT e GPT-4 em 805 problemas.

Percebe-se que o modelo 70B do Xwin-LM dominou completamente a lista, tornando-se o primeiro na avaliação de desempenho dos indicadores Alpaca, e derrotou o GPT-4 pela primeira vez, com uma taxa de vitória de 60,61% contra o GPT-4.

Modelos de outros tamanhos de Xwin-LM, como Xwin-LM-13B-V0.1 e Xwin-LM-7B-V0.1, também excedem em muito outros modelos do mesmo tamanho em desempenho.

O Xwin-LM-7B-V0.1 supera até mesmo o maior Llama 2-13B-Chat.

2. Comparação de casos

No primeiro caso, os pesquisadores perguntaram ao GPT-4 e ao Xwin-LM:

"Coloquei um prato em cima das maçãs e levei o prato da cozinha para a sala de jantar. Onde estão as maçãs agora?"

A resposta do GPT-4 é:

“A maçã está no restaurante agora, e quando você leva o prato da cozinha para o restaurante, ela está embaixo do prato.”

Aqui o GPT-4 deu uma resposta que faltou bom senso. Na vida real existe gravidade. A maçã debaixo do prato permanece no seu estado original e não vai ao restaurante com o prato.

Em contrapartida, a resposta do Xwin-LM está mais de acordo com a realidade e também dá uma forma de trazer a Apple para a cozinha:

“A maçã ainda está na cozinha porque você acabou de mover o prato.

As maçãs estão embaixo do prato, então se você quiser levar as maçãs para o restaurante, você deve mover as maçãs diretamente ou colocar as maçãs no prato e depois levar o prato para o restaurante. "

No segundo caso, os pesquisadores perguntaram ao GPT-4 e ao Xwin-LM:

"Como se diz 'boa noite' em francês?"

A resposta do GPT-4 é:

"Em francês, 'boa noite' é expresso como 'bonsoir'."

E a resposta do Xwin-LM é:

“Em francês, 'boa noite' é traduzido como 'bonsoir'. Esta saudação é usada à noite e à noite, geralmente depois das 18h.

É uma combinação de 'bon' (que significa bom) e 'soir' (que significa noite). Para pronunciá-lo, diga 'bone-swahr'".

Embora a resposta do GPT-4 estivesse correta, o Xwin-LM não apenas respondeu corretamente à pergunta, mas também explicou a origem e a pronúncia de “boa noite” na expressão francesa, fornecendo informações mais ricas ao usuário.

3. Tarefas de PNL

A tabela a seguir compara o Xwin-LM com outros LLMs em tarefas básicas de PNL.

Pode-se observar que o desempenho do modelo Xwin-LM-70B-V0.1 é relativamente alto em todas as tarefas e tem um desempenho particularmente bom nas tarefas MMLU de 5 disparos e HellaSwag de 10 disparos.

E, de um modo geral, o Xwin-LM-70B-V0.1 tem o melhor desempenho.

4. Capacidade de raciocínio

Os pesquisadores propuseram que, para obter os resultados desejados ao usar o Xwin-LM para inferência, o modelo de diálogo para inferência precisa ser rigorosamente respeitado.

O Xwin-LM adota o formato de prompt estabelecido pela Vicuna e suporta diálogo multivoltas.

Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. O assistente fornece respostas úteis, detalhadas e educadas às perguntas do usuário. USUÁRIO: Olá! ASSISTENTE: Olá.s>USUÁRIO: Quem é você? ASSISTENTE: Eu sou Xwin-LM.s>......

Exemplo de Abraço

de transformadores importam AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. " "O assistente dá respostas úteis, detalhadas e educadas às perguntas do usuário. " "USUÁRIO: Olá, você pode me ajudar? " "ASSISTENTE:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temperatura=0,7)output = tokenizer.decode(samples [0] [entradas["input_ids"].forma [1] :], skip_special_tokens=True)print(output) # Claro! Estou aqui para ajudar. Fique à vontade para fazer sua pergunta ou descrever o problema que você está enfrentando e farei o possível para ajudá-lo. Exemplo de VLLM

Como o Xwin-LM é ajustado com base no Llama 2, ele também suporta o uso de VLLM para inferência rápida.

from vllm import LLM, SamplingParams( := "Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. " "O assistente dá respostas úteis, detalhadas e educadas às perguntas do usuário. " "USUÁRIO: Olá, você pode me ajudar? " "ASSISTENTE:")sampling_params = SamplingParams(temperatura=0,7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], amostragem_params) para saída em saídas: = saída. texto_gerado = saída.outputs [0] .text impressão (texto_gerado)

Alpaca: fácil de usar, rápido, de baixo custo, verificado por anotação humana

Como uma ferramenta automática de avaliação LLM, o Alpaca combina AlpacaFarm e Aviary.

Por um lado, ele usa o mesmo código do AlpacaFarm (cache/permutações aleatórias/hiperparâmetros), por outro lado, usa uma dica de classificação semelhante ao Aviary.

Ao mesmo tempo, as instruções do Aviary também foram modificadas para reduzir a tendência para uma produção mais longa.

A equipe disse que o Alpaca tem efeitos excelentes:

  • Consistência com o voto da maioria humana, superior a um único anotador humano

  • A taxa de vitórias está altamente correlacionada com a anotação humana (0,94)

**- Taxa de vitórias **

A saída do modelo supera text-davinci-003 (ou seja, o texto de referência) por instrução.

Especificamente, primeiro coletamos os pares de saídas do modelo desejado em cada instrução do conjunto de dados Alpaca e emparelhamos cada saída com a saída do modelo de referência (text-davinci-003) na mesma instrução.

Em seguida, esses resultados são enviados ao avaliador automático ao mesmo tempo, permitindo-lhe julgar qual é o melhor (ou seja, a preferência do avaliador).

Finalmente, é calculada a média das preferências de todas as instruções no conjunto de dados para obter a taxa de vitória do modelo em relação ao text-davinci-003. Se os dois modelos empatarem, isso conta como meia preferência.

Endereço do papel:

- LIMITAÇÕES

Embora o Alpaca forneça uma maneira eficiente de comparar a capacidade de um modelo de seguir instruções, não é o padrão ouro para uma avaliação abrangente da capacidade de um modelo.

Conforme detalhado no artigo da AlpacaFarm, a taxa de vitória dos anotadores automáticos depende do comprimento. Embora a anotação humana também sofra deste viés, não está claro se respostas mais longas aumentariam a utilidade em tarefas posteriores.

Além disso, o conjunto de avaliação da AlpacaFarm, embora diverso, consiste principalmente em instruções simples.

Por fim, a Alpaca não avalia a segurança de nenhum modelo.

Referências:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)