Os dados humanos estão com pressa, o Microsoft OpenAI começou a alimentar a IA com a IA, disse Altman: todos os dados no futuro se tornarão dados sintéticos

Fonte original: Qubit

Fonte da imagem: Gerada por Unbounded AI‌

Há uma escassez de dados humanos e a IA é forçada a começar a consumir os dados produzidos pela IA!

Esse é o status quo enfrentado por empresas de ponta em IA, como Microsoft e OpenAI.

Eles vasculharam grandes quantidades de dados de plataformas e fóruns como Wikipedia, e-books, sites de notícias, blogs, Twitter e Reddit, e agora... eles estão ficando sem dados.

MAS, para treinar um modelo grande melhor, nenhuma quantidade de dados é suficiente.

Segundo o "Financial Times", muitas empresas estão alimentando os resultados gerados por grandes modelos, os chamados synthetic data (dados sintéticos), para grandes modelos com parâmetros menores, e constataram que os resultados não são ruins.

Para o uso de dados sintéticos, o CEO da OpenAI, Sam Altman, não apenas não se importa, mas também disse que "todos os dados no futuro se tornarão dados sintéticos".

A Cohere, uma startup de grande porte avaliada em US$ 2 bilhões, também está usando dados sintéticos. Aidan Gomez, CEO da empresa e um dos autores do clássico papel Transformer de modelo grande, acredita que:

Dados sintéticos podem acelerar o caminho para sistemas de IA "superinteligentes".

Então, quais grandes modelos já estão usando dados sintéticos e de onde vêm esses dados sintéticos?

A IA grande sintetiza dados, a IA pequena consome

Esses chamados dados sintéticos são essencialmente os dados gerados pelo modelo grande atual com melhor desempenho, após ajuste manual, e então alimentados em um modelo grande um pouco menor.

Por exemplo, Cohere tentou usar dois grandes modelos para conduzir diálogos de "interpretação de papéis" e transformar os resultados gerados por eles em dados sintéticos.

Esses dois grandes modelos desempenham o papel de “professor de matemática” e “aluno” respectivamente, e estão conduzindo uma aula virtual de ensino de matemática. Enquanto isso, Cohere colocou um funcionário humano à margem para supervisionar a geração do diálogo.

Os humanos intervêm para consertar o texto sempre que uma conversa dá errado.

Embora exija mão de obra, é muito mais barato do que contratar especialistas em ciência, medicina e negócios para escrever o texto.

Então, que tipo de modelos grandes usarão esses dados sintéticos?

Uma pesquisa recente da Microsoft Research mostrou que dados sintéticos podem ser usados para treinar modelos de linguagem ligeiramente menores que GPT-4 ou PaLM-2**.

Tome como exemplo um conjunto de dados de "romance infantil de quatro anos" TinyStories gerado pelo GPT-4. Este conjunto de dados contém apenas palavras que crianças de 4 anos podem entender, mas após o treinamento um modelo grande, o mesmo Uma história gramaticalmente correta e lida suavemente:

Quanto às razões para usar dados sintéticos, o CEO da Cohere, Aidan Gomez, acredita:

É claro que é melhor obter dados da Internet, mas os dados da rede são muito confusos para atender às necessidades. Em contraste, os dados sintéticos já são abundantes, mesmo que não sejam amplamente divulgados.

A cadeia industrial por trás apareceu

Atualmente, empresas como Scale AI e Gretel.ai começaram a fornecer serviços de dados sintéticos para o mundo exterior.

Primeiro, Scale AI, que lançou um produto de dados sintéticos, o Scale Synthetic, para fornecer serviços de dados sintéticos às empresas.

Nas notícias anteriores de que a SemiAnalysis deu a notícia sobre o "grande laço" do GPT-4, também mencionou que no conjunto de dados do GPT-4, existem milhões de linhas da Scale AI e dados de ajuste fino de instruções internas.

Quanto à plataforma de dados sintéticos Gretel.ai, do site oficial, ela cooperou com diferentes empresas como Google, Riot Games e HSBC para gerar mais dados sintéticos para outros desenvolvedores usarem.

Ali Golshan, CEO da Gretel.ai, acredita que o benefício dos dados sintéticos é que eles preservam a privacidade de todos os indivíduos no conjunto de dados, mantendo sua integridade estatística.

Mas nem todos aceitam a "operação mágica" dos dados sintéticos.No momento, as opiniões de todas as partes estão divididas principalmente em duas ondas.

Alguns aprovam o uso de dados sintéticos. Incluindo empresas de IA como a Cohere, muitas empresas envolvidas em modelos de grande escala ainda insistem nessa abordagem e acreditam que ela pode gerar uma IA melhor e até dar origem a "superinteligência".

Outra parte acredita que os dados sintéticos eventualmente permitirão que a IA "** se alimente de si mesma **".

Por exemplo, um estudo da Universidade de Oxford, Universidade de Cambridge, Imperial College, Universidade de Toronto, Universidade de Edimburgo e Vector Institute mostra que:

O treinamento com dados sintéticos causará defeitos irreversíveis no modelo: Esqueça aqueles "eventos impossíveis" que acabam sendo envenenados por dados autogerados.

Alguns internautas acreditam que esses dados sintéticos acabarão por se tornar uma piscina de "lodo inutilizável" - e então as pessoas terão que ser forçadas a contratar cientistas de dados para limpá-los*.

Alguns internautas ridicularizaram que isso soa como "** endogamia AI **".

Você acha que a IA precisa usar dados sintéticos?

Link de referência: [1] [2] [3] [4]

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)