Derrotar GPT-4 pela primeira vez?70 bilhões de parâmetros Xwin-LM atinge o topo do Stanford Alpaca_, modelo 13B vence ChatGPT

Question

Fonte: Xinzhiyuan**Introdução:** O primeiro lugar do GPT-4 em Stanford Alpaca foi na verdade arrebatado por um azarão.Aparece o primeiro modelo a superar o GPT-4 no Alpaca!Em junho deste ano, assim que a lista Alpaca foi anunciada, o GPT-4 assumiu o primeiro lugar com liderança absoluta, com uma taxa de vitórias superior a 95%.Três meses depois, um azarão chamado Xwin-LM realmente puxou o GPT-4, que estava firmemente no topo da lista, do TOP 1?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2aa2d5066b-dd1a6f-6d2ef1) endereço do projeto:Além disso, o Xwin-LM também conquistou três primeiros lugares sem exceção na competição com os mesmos modelos de parâmetros:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-af4ec75598-dd1a6f-6d2ef1)> Xwin-LM-70B-V0.1: A taxa de vitórias contra Davinci-003 no benchmark Alpaca atingiu 95,57%, ficando em primeiro lugar em Alpaca. É também o primeiro modelo a ultrapassar o GPT-4 no Alpaca. Além disso, sua taxa de vitórias contra o GPT-4 é de 60,61.> Xwin-LM-13B-V0.1: Alcançou uma taxa de vitória de 91,76% no Alpaca, ficando em primeiro lugar entre todos os modelos 13B.> Xwin-LM-7B-V0.1: Alcançou uma taxa de vitória de 87,82% no Alpaca, ficando em primeiro lugar entre todos os modelos 7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36582fbdf2-dd1a6f-6d2ef1)## **Xwin-LM: 70 bilhões de parâmetros superam o GPT-4**Xwin-LM é ajustado com base no Llama 2. Este modelo é projetado para desenvolver e abrir tecnologias de alinhamento de código aberto para grandes modelos de linguagem, incluindo ajuste fino supervisionado (SFT), modelo de recompensa (RM), amostragem de rejeição e reforço de feedback humano aprendizagem (RLHF). espere.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e82e6b8adc-dd1a6f-6d2ef1) **1. Avaliação de desempenho**Os pesquisadores avaliaram a taxa de vitórias do Xwin-LM em relação ao Text-Davinci-003, ChatGPT e GPT-4 em 805 problemas.Percebe-se que o modelo 70B do Xwin-LM dominou completamente a lista, tornando-se o primeiro na avaliação de desempenho dos indicadores Alpaca, e derrotou o GPT-4 pela primeira vez, com uma taxa de vitória de 60,61% contra o GPT-4.Modelos de outros tamanhos de Xwin-LM, como Xwin-LM-13B-V0.1 e Xwin-LM-7B-V0.1, também excedem em muito outros modelos do mesmo tamanho em desempenho.O Xwin-LM-7B-V0.1 supera até mesmo o maior Llama 2-13B-Chat.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3244aba5ef-dd1a6f-6d2ef1) **2. Comparação de casos**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-062b82b341-dd1a6f-6d2ef1) No primeiro caso, os pesquisadores perguntaram ao GPT-4 e ao Xwin-LM:"Coloquei um prato em cima das maçãs e levei o prato da cozinha para a sala de jantar. Onde estão as maçãs agora?"A resposta do GPT-4 é:“A maçã está no restaurante agora, e quando você leva o prato da cozinha para o restaurante, ela está embaixo do prato.”Aqui o GPT-4 deu uma resposta que faltou bom senso. Na vida real existe gravidade. A maçã debaixo do prato permanece no seu estado original e não vai ao restaurante com o prato.Em contrapartida, a resposta do Xwin-LM está mais de acordo com a realidade e também dá uma forma de trazer a Apple para a cozinha:“A maçã ainda está na cozinha porque você acabou de mover o prato.As maçãs estão embaixo do prato, então se você quiser levar as maçãs para o restaurante, você deve mover as maçãs diretamente ou colocar as maçãs no prato e depois levar o prato para o restaurante. "No segundo caso, os pesquisadores perguntaram ao GPT-4 e ao Xwin-LM:"Como se diz 'boa noite' em francês?"A resposta do GPT-4 é:"Em francês, 'boa noite' é expresso como 'bonsoir'."E a resposta do Xwin-LM é:“Em francês, 'boa noite' é traduzido como 'bonsoir'. Esta saudação é usada à noite e à noite, geralmente depois das 18h.É uma combinação de 'bon' (que significa bom) e 'soir' (que significa noite). Para pronunciá-lo, diga 'bone-swahr'".Embora a resposta do GPT-4 estivesse correta, o Xwin-LM não apenas respondeu corretamente à pergunta, mas também explicou a origem e a pronúncia de “boa noite” na expressão francesa, fornecendo informações mais ricas ao usuário.**3. Tarefas de PNL**A tabela a seguir compara o Xwin-LM com outros LLMs em tarefas básicas de PNL.Pode-se observar que o desempenho do modelo Xwin-LM-70B-V0.1 é relativamente alto em todas as tarefas e tem um desempenho particularmente bom nas tarefas MMLU de 5 disparos e HellaSwag de 10 disparos.E, de um modo geral, o Xwin-LM-70B-V0.1 tem o melhor desempenho.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f088c927b-dd1a6f-6d2ef1) **4. Capacidade de raciocínio**Os pesquisadores propuseram que, para obter os resultados desejados ao usar o Xwin-LM para inferência, o modelo de diálogo para inferência precisa ser rigorosamente respeitado.O Xwin-LM adota o formato de prompt estabelecido pela Vicuna e suporta diálogo multivoltas.Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. O assistente fornece respostas úteis, detalhadas e educadas às perguntas do usuário. USUÁRIO: Olá! ASSISTENTE: Olá.s>USUÁRIO: Quem é você? ASSISTENTE: Eu sou Xwin-LM.s>......**Exemplo de Abraço***de transformadores importam AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. " "O assistente dá respostas úteis, detalhadas e educadas às perguntas do usuário. " "USUÁRIO: Olá, você pode me ajudar? " "ASSISTENTE:")inputs = tokenizer(, return_tensors ="pt")samples = model.generate(**inputs, max_new_tokens=4096, temperatura=0,7)output = tokenizer.decode(samples [0] [entradas["input_ids"].forma [1] :], skip_special_tokens=True)print(output) *# Claro! Estou aqui para ajudar. Fique à vontade para fazer sua pergunta ou descrever o problema que você está enfrentando e farei o possível para ajudá-lo.***Exemplo de VLLM**Como o Xwin-LM é ajustado com base no Llama 2, ele também suporta o uso de VLLM para inferência rápida.from vllm import LLM, SamplingParams( := "Um bate-papo entre um usuário curioso e um assistente de inteligência artificial. " "O assistente dá respostas úteis, detalhadas e educadas às perguntas do usuário. " "USUÁRIO: Olá, você pode me ajudar? " "ASSISTENTE:")sampling_params = SamplingParams(temperatura=0,7, max_tokens=4096)llm = LLM(model="Xwin-LM/Xwin-LM-7B-V0.1")outputs = llm.generate([,], amostragem_params)para saída em saídas: = saída. texto_gerado = saída.outputs [0] .text impressão (texto_gerado)## **Alpaca: fácil de usar, rápido, de baixo custo, verificado por anotação humana**Como uma ferramenta automática de avaliação LLM, o Alpaca combina AlpacaFarm e Aviary.Por um lado, ele usa o mesmo código do AlpacaFarm (cache/permutações aleatórias/hiperparâmetros), por outro lado, usa uma dica de classificação semelhante ao Aviary.Ao mesmo tempo, as instruções do Aviary também foram modificadas para reduzir a tendência para uma produção mais longa.A equipe disse que o Alpaca tem efeitos excelentes:- Consistência com o voto da maioria humana, superior a um único anotador humano- A taxa de vitórias está altamente correlacionada com a anotação humana (0,94)![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7163c6fdde-dd1a6f-6d2ef1) **- Taxa de vitórias **A saída do modelo supera text-davinci-003 (ou seja, o texto de referência) por instrução.Especificamente, primeiro coletamos os pares de saídas do modelo desejado em cada instrução do conjunto de dados Alpaca e emparelhamos cada saída com a saída do modelo de referência (text-davinci-003) na mesma instrução.Em seguida, esses resultados são enviados ao avaliador automático ao mesmo tempo, permitindo-lhe julgar qual é o melhor (ou seja, a preferência do avaliador).Finalmente, é calculada a média das preferências de todas as instruções no conjunto de dados para obter a taxa de vitória do modelo em relação ao text-davinci-003. Se os dois modelos empatarem, isso conta como meia preferência.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e0c6c964e-dd1a6f-6d2ef1) Endereço do papel:**- LIMITAÇÕES**Embora o Alpaca forneça uma maneira eficiente de comparar a capacidade de um modelo de seguir instruções, não é o padrão ouro para uma avaliação abrangente da capacidade de um modelo.Conforme detalhado no artigo da AlpacaFarm, a taxa de vitória dos anotadores automáticos depende do comprimento. Embora a anotação humana também sofra deste viés, não está claro se respostas mais longas aumentariam a utilidade em tarefas posteriores.Além disso, o conjunto de avaliação da AlpacaFarm, embora diverso, consiste principalmente em instruções simples.Por fim, a Alpaca não avalia a segurança de nenhum modelo.Referências: