1 comando + 5 dólares + 20 minutos, você pode treinar um pequeno modelo profissional, _2Modelo para aprender

2023-08-31 06:31:53

Os pesquisadores da CMU e da Tsinghua lançaram em conjunto a estrutura 2Model, que pode treinar rapidamente um pequeno modelo profissional com base nas informações fornecidas pelo usuário. Investindo apenas US$ 5 para coleta de dados e 20 minutos de treinamento, você pode obter um modelo pequeno com desempenho 20% melhor que a média do ChatGPT, ao mesmo tempo que reduz o tamanho dos parâmetros do modelo em 700 vezes.

Fonte da imagem: gerada por Unbounded AI

Modelos de linguagem em larga escala (LLMs) permitem que os usuários construam sistemas poderosos de processamento de linguagem natural com a ajuda de dicas e aprendizado contextual. No entanto, de outra perspectiva, o desempenho do LLM em certas tarefas de processamento de linguagem natural sofre de certas regressões: a implantação destes modelos requer uma grande quantidade de recursos computacionais, e a interação com os modelos através de APIs pode causar potenciais problemas de privacidade.

Em resposta a estes problemas, investigadores da Universidade Carnegie Mellon (CMU) e da Universidade Tsinghua lançaram conjuntamente a estrutura 2Model. O objetivo desta estrutura é combinar métodos de geração e recuperação de dados baseados em LLM para superar os desafios acima. Usando a estrutura 2Model, os usuários só precisam fornecer os mesmos prompts do LLM para coletar dados automaticamente e treinar com eficiência pequenos modelos especializados adequados para tarefas específicas.

Os pesquisadores conduziram experimentos em três subtarefas de processamento de linguagem natural. Tomando um pequeno número de dicas de amostra como entrada, custa apenas US$ 5 para coletar dados e 20 minutos de treinamento, o modelo gerado pela estrutura 2Model mostra uma melhoria de desempenho de 20% em comparação com o modelo LLM mais poderoso gpt-3.5-turbo. Ao mesmo tempo, o tamanho do modelo foi reduzido em até 700 vezes. Os pesquisadores verificaram ainda o impacto desses dados no desempenho do modelo em cenários reais, permitindo aos desenvolvedores do modelo prever a confiabilidade do modelo antes da implantação. A estrutura já está disponível como código aberto:

* O endereço do armazém GitHub da estrutura: *Link do vídeo de demonstração da estrutura:

Links para artigos relacionados à estrutura:

fundo

Construir um sistema do zero para uma tarefa específica de processamento de linguagem natural costuma ser bastante complexo. O construtor do sistema precisa definir claramente o escopo da tarefa, obter um conjunto de dados específico, selecionar uma arquitetura de modelo apropriada, treinar e avaliar o modelo e, em seguida, implantá-lo para aplicação prática.

Modelos de linguagem em larga escala (LLMs), como GPT-3, fornecem uma solução mais fácil para esse processo. Os usuários só precisam fornecer prompts de tarefas (instruções) e alguns exemplos (exemplos), e o LLM pode gerar a saída de texto correspondente. No entanto, gerar texto a partir de dicas pode ser computacionalmente intensivo e usar dicas não é tão estável quanto um modelo especialmente treinado. Além disso, a usabilidade do LLM é limitada pelo custo, velocidade e privacidade.

Para superar esses problemas, os pesquisadores desenvolveram a estrutura 2Model. Esta estrutura combina técnicas de geração e recuperação de dados baseadas em LLM para resolver as limitações acima. O sistema primeiro extrai informações importantes dele, depois gera e recupera dados de treinamento e, finalmente, produz um modelo especializado pronto para implantação.

A estrutura 2Model automatiza as seguintes etapas principais:

Conjunto de dados e recuperação de modelo: Colete conjuntos de dados relevantes e modelos pré-treinados.
Geração de conjuntos de dados: Use LLM para criar conjuntos de dados pseudo-rotulados.
Ajuste fino do modelo: ajuste o modelo misturando dados recuperados e gerados.
Teste de modelo: teste o modelo no conjunto de dados de teste e no conjunto de dados real fornecido pelo usuário.

Após avaliação empírica de múltiplas tarefas diferentes, o custo do 2Model é significativamente reduzido e o tamanho do modelo também é bastante reduzido, mas o desempenho excede o gpt-3.5-turbo. A estrutura 2Model não serve apenas como uma ferramenta para a construção eficiente de sistemas de processamento de linguagem natural, mas também serve como uma plataforma para explorar técnicas de treinamento de conjuntos de modelos.

Estrutura

A principal característica da estrutura 2Model é um alto grau de automação. Seu processo abrange múltiplos links, como coleta de dados, treinamento de modelo, avaliação e implantação, conforme mostrado na figura acima. Entre eles, o sistema automatizado de coleta de dados desempenha um papel fundamental, pois obtém dados intimamente relacionados às necessidades do usuário por meio da recuperação de conjuntos de dados e da geração de dados baseada em LLM. O sistema então recupera o modelo pré-treinado e o ajusta no conjunto de dados adquirido. Finalmente, o modelo treinado é avaliado no conjunto de teste e uma interface de usuário (UI) da web é criada para interagir com o modelo.

Os principais recursos da estrutura 2Model incluem:

Driver: A ideia central do 2Model é usá-lo como um driver, e os usuários podem descrever diretamente as tarefas necessárias sem ter que entender os detalhes específicos de implementação do aprendizado de máquina.
Coleta automática de dados: A estrutura utiliza técnicas de recuperação e geração de conjuntos de dados para obter dados altamente compatíveis com as tarefas do usuário, estabelecendo assim o conjunto de dados necessário para o treinamento.
Modelos pré-treinados: A estrutura utiliza modelos pré-treinados e os ajusta, economizando assim muitos custos e tempo de treinamento.
Avaliação de efeito: 2Model oferece suporte a testes e avaliação de modelos em conjuntos de dados reais, permitindo que previsões preliminares e avaliações de desempenho sejam feitas antes da implantação do modelo, melhorando assim a confiabilidade do modelo.

Essas características tornam o framework 2Model uma ferramenta poderosa que pode completar com eficiência o processo de construção de sistemas de processamento de linguagem natural e fornecer funções avançadas como coleta automática de dados, avaliação de modelos e criação de interfaces de interação com o usuário.

Experimentos e resultados

Em termos de desenho experimental, os pesquisadores escolheram três tarefas diferentes para avaliar o desempenho do sistema 2Model:

Controle de qualidade de leitura de máquina: use SQuAD como o conjunto de dados de avaliação real.
Conversão de NL para código japonês (NL para código japonês): Use MCoNaLa como o conjunto de dados de avaliação real.
Normalização de expressão temporal: use o conjunto de dados temporais como o conjunto de dados de avaliação real.

Além disso, os pesquisadores também selecionaram o GPT-3.5-turbo como modelo de referência para comparação. Os resultados experimentais tiram as seguintes conclusões:

Em todas as tarefas, exceto a tarefa de geração de código, o modelo gerado pelo sistema 2Model é significativamente melhor que o modelo básico GPT-3.5-turbo, embora o tamanho do parâmetro do modelo gerado seja muito menor que o do GPT-3.5-turbo.
Ao misturar o conjunto de dados de recuperação e o conjunto de dados gerado para treinamento, você pode obter resultados comparáveis ao treinamento diretamente usando o conjunto de dados real. Isso verifica que a estrutura 2Model pode reduzir bastante o custo da anotação manual.
O conjunto de dados de teste gerado pelo gerador de dados pode distinguir com eficácia o desempenho de diferentes modelos no conjunto de dados real. Isso indica que os dados gerados são de alta qualidade e têm efeito suficiente em termos de treinamento do modelo.
Na tarefa de conversão de japonês para código, o sistema 2Model tem desempenho pior que o GPT-3.5-turbo.

Isto pode ser devido a razões como a baixa qualidade dos conjuntos de dados gerados e a falta de modelos pré-treinados apropriados.

Juntos, o sistema 2Model gera com sucesso pequenos modelos de alta qualidade em múltiplas tarefas, reduzindo bastante a necessidade de anotação manual de dados. No entanto, ainda são necessárias melhorias adicionais em algumas tarefas.

Resumir

A estrutura 2Model lançada pela equipe de pesquisa realiza a função de construir automaticamente modelos específicos de tarefas apenas por meio de prompts em linguagem natural. Esta inovação reduz significativamente o limite para a construção de modelos personalizados de processamento de linguagem natural e expande ainda mais o escopo de aplicação da tecnologia PNL.

Os resultados do experimento de verificação mostram que o modelo gerado pela estrutura 2Model é significativamente menor do que o modelo de linguagem grande e supera modelos como GPT-3.5-turbo em múltiplas tarefas. Ao mesmo tempo, o conjunto de dados de avaliação gerado por esta estrutura também provou ser eficaz na avaliação do desempenho de diferentes modelos em conjuntos de dados reais. Isso fornece um valor significativo na orientação da implantação final do modelo.

A estrutura 2Model fornece uma abordagem de baixo custo e fácil de usar para a indústria e uma ampla gama de usuários obterem modelos de PNL que atendam a necessidades específicas. Isto é de grande importância para promover a ampla aplicação da tecnologia da PNL. O trabalho futuro continuará a centrar-se na otimização adicional do desempenho do quadro.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
ETH Breaks $3600
39k Popularidade
Gate Derivatives Volume Hits New High
20k Popularidade
CPI Data Incoming
33k Popularidade
4Join Gate VIP to Win MacBook
31k Popularidade
5MicroStrategy Buys More Bitcoin
4k Popularidade
6BTC Hits New High
97k Popularidade
7My Gate Moments
29k Popularidade
8VIP Exclusive Airdrop Carnival
27k Popularidade
9Fed June Meeting Minutes
7k Popularidade
10Trump Tariff Hikes
18k Popularidade

Marcar

sitemap