"Maior que maior" (Maior que maior) é um anúncio da Apple naquele ano, que é usado para descrever o modelo de linguagem mais quente no campo da IA. Parece que não há nada de errado com isso.
De bilhões a dezenas de bilhões a centenas de bilhões, os parâmetros do grande modelo gradualmente se tornaram selvagens. Correspondentemente, a quantidade de dados usados para treinar IA também aumentou exponencialmente.
Tomando o GPT da OpenAI como exemplo, de GPT-1 para GPT-3, seu conjunto de dados de treinamento cresceu exponencialmente de 4,5 GB para 570 GB.
Na conferência Data+AI realizada pela Databricks não muito tempo atrás, Marc Andreessen, fundador da a16z, acreditava que os dados massivos acumulados pela Internet nas últimas duas décadas são uma razão importante para o surgimento dessa nova onda de IA, porque o o primeiro fornece ao segundo dados de treinamento utilizáveis.
No entanto, mesmo que os internautas deixem muitos dados úteis ou inúteis na Internet, para o treinamento de IA, esses dados podem chegar ao fundo do poço.
Um artigo publicado pela Epoch, uma organização de pesquisa e previsão de inteligência artificial, prevê que os dados de texto de alta qualidade serão esgotados entre 2023-2027.
Embora a equipe de pesquisa admita que há sérias limitações no método de análise e que a imprecisão do modelo é alta, é difícil negar que a velocidade com que a IA está consumindo conjuntos de dados é assustadora.
Consumo de dados de aprendizado de máquina e tendências de produção de dados de texto de baixa qualidade, texto e imagens de alta qualidade|EpochAI
Quando os dados "humanos" acabarem, o treinamento de IA inevitavelmente usará o conteúdo produzido pela própria IA. No entanto, esse "loop interno" representará grandes desafios.
Não muito tempo atrás, pesquisadores da Universidade de Cambridge, Universidade de Oxford, Universidade de Toronto e outras universidades publicaram artigos apontando que o uso de conteúdo gerado por IA como IA de treinamento levará ao colapso do novo modelo. **
Então, qual é o motivo da falha causada pelos "dados gerados" para treinamento de IA? Existe alguma ajuda?
01 Consequências da "endogamia" da IA
No artigo intitulado "The Curse of Recursion: Training with Generated Data Makes Models Forget", os pesquisadores apontam que o "colapso do modelo" é um processo degenerado de modelos ao longo de várias gerações**.
Os dados gerados pela geração anterior de modelos irão poluir a próxima geração de modelos.Após várias gerações de "herança" de modelos, eles perceberão o mundo erroneamente.
Diagrama esquemático da iteração do modelo|arxiv
O colapso do modelo ocorre em duas etapas:
No início do colapso do modelo, o modelo começará a perder as informações de distribuição dos dados originais, ou seja, "dados humanos limpos";
No estágio posterior, o modelo envolverá a "percepção errônea" das informações de distribuição originais das gerações anteriores de modelos, distorcendo assim a realidade.
Os pesquisadores primeiro treinaram os modelos GMM (Gaussian Mixture Model) e VAE (Variable Autoencoder) do zero. Tomando o GMM como exemplo, a extrema esquerda da figura abaixo é a distribuição normal dos dados originais.
Como você pode ver, o modelo se ajusta muito bem aos dados inicialmente. Na 50ª iteração, a distribuição de dados subjacentes começou a ser mal interpretada. Quando a iteração chega a 2.000 vezes, o modelo convergiu para um ponto muito pequeno, o que significa que o modelo começa a produzir respostas erradas constantemente.
Exemplos de dados de ajuste GMM nas iterações 0, 50, 100, 150, 200, 350, 2000|arxiv
Para verificar o impacto do pré-treinamento nos resultados experimentais, os pesquisadores conduziram experimentos no LLM (Large Language Model) OPT-125m de 125 milhões de parâmetros desenvolvido pela Meta. O conjunto de dados vem do wikitext2 da Wikipedia.
Ao contrário de modelos pequenos, como GMM e VAE, o custo do treinamento LLM do zero é muito alto, portanto, todos são pré-treinados. Os resultados experimentais são os seguintes:
Contribuição: De acordo com Poyntz Wright, algumas atividades antes de 1360 eram geralmente executadas por um mestre pedreiro e uma pequena equipe de pedreiros itinerantes, complementados por mão de obra paroquial local. Mas outros autores negam esse modelo, sugerindo, em vez disso, que o mestre arquiteto projetou a torre da igreja paroquial no estilo vertical inglês.
Resultado: Geração 0: Edifícios revivalistas, como a Catedral de St. John em Londres. O mais antigo edifício sobrevivente do Renascimento Vertical data da Igreja de Nossa Senhora de Guernsey, do século XVIII, que foi construída no final do século XIX. Existem dois tipos de igrejas verticais: As de 1ª geração: edifícios, como a Basílica de São Pedro em Roma ou a Basílica de São Pedro em Buenos Aires. Não há evidências de que esses edifícios tenham sido construídos durante o reinado do Papa Inocêncio III, mas é possível que tenham sido construídos durante o reinado de seu sucessor, o Papa Inocêncio. Geração 7: Arquitetura Britânica. Em entrevista ao The New York Times, Wright disse: "Não acho que haja nada de errado em eu poder fazer o que quero. Simplesmente não funciona para mim". se você pode reivindicar É divertido, 9ª Geração: Arquitetura. Além de ser o maior preto@-@tailhare, branco@-@tailhare, azul@-@tailhare, vermelho@-@tailhare, amarelo@- um dos habitats
Pode-se ver que na época do modelo da 9ª geração, o conteúdo da saída era completamente incompreensível.
Ilia Shumailov, um dos autores do artigo, disse que, com o tempo, os erros nos dados gerados pela IA se acumulam e os principais modelos treinados nesses dados desenvolvem uma visão ainda mais distorcida da realidade.
02 Por que o modelo falha?
A principal razão para o "colapso do modelo" é que a IA não é uma inteligência real. Por trás de sua capacidade de aproximar a "inteligência" está, na verdade, um método estatístico baseado em uma grande quantidade de dados.
Basicamente, todos os algoritmos de aprendizado de máquina não supervisionados seguem um padrão simples: Dada uma série de dados, treine um modelo que possa descrever as leis desses dados.
Nesse processo, os dados com maior probabilidade no conjunto de treinamento têm maior probabilidade de serem valorados pelo modelo, e os dados com menor probabilidade serão subestimados pelo modelo.
Por exemplo, suponha que precisamos registrar os resultados de 100 lançamentos de dados para calcular a probabilidade de cada face. Em teoria, a probabilidade de cada rosto aparecer é a mesma. Na vida real, devido ao pequeno tamanho da amostra, pode haver mais casos de 3 e 4. Mas para o modelo, os dados que ele aprende é que 3 e 4 têm maior probabilidade de aparecer, então ele tende a gerar mais resultados 3 e 4.
Diagrama esquemático do "colapso do modelo"|arxiv
Outra causa secundária é o erro de aproximação de função. Também é fácil de entender, porque as funções reais costumam ser muito complexas.Em aplicações práticas, as funções simplificadas são frequentemente usadas para aproximar as funções reais, o que leva a erros.
03 Você está realmente sem sorte?
Preocupar!
Então, com cada vez menos dados humanos, realmente não há chance de treinamento em IA?
Não, ainda existem maneiras de resolver o problema de exaustão de dados para IA de treinamento:
"isolamento" de dados
À medida que a IA se torna cada vez mais poderosa, mais e mais pessoas começaram a usar a IA para se auxiliar em seu trabalho, e a AIGC na Internet explodiu, e "conjuntos de dados humanos limpos" podem se tornar cada vez mais difíceis de encontrar.
Daphne Ippolito, pesquisadora sênior do Google Brain, departamento de pesquisa de aprendizagem profunda do Google, disse que no futuro, será cada vez mais difícil encontrar dados de treinamento garantidos e de alta qualidade sem inteligência artificial.
É como um ancestral humano que sofre de uma doença genética de alto risco, mas tem uma capacidade reprodutiva extremamente forte. Em um curto período de tempo, ele multiplicou seus descendentes em todos os cantos da terra. Então, em algum momento, uma doença genética irrompe e toda a humanidade é extinta.
Para lidar com o "colapso do modelo", uma abordagem proposta pela equipe de pesquisa é a "vantagem do pioneiro", ou seja, manter o acesso a fontes de dados limpas geradas artificialmente, separando o AIGC dele.
Ao mesmo tempo, isso exige que muitas comunidades e empresas unam forças para manter os dados humanos livres da poluição AIGC.
Ainda assim, a escassez de dados humanos significa que existem oportunidades lucrativas para fazê-lo, e algumas empresas já estão fazendo isso. O Reddit disse que aumentaria significativamente o custo de acesso à sua API. Os executivos da empresa disseram que as mudanças foram (em parte) uma resposta às empresas de IA que roubaram seus dados. “O banco de dados do Reddit é realmente valioso”, disse o fundador e CEO do Reddit, Steve Huffman, ao The New York Times, “mas não precisamos dar todo esse valor de graça para algumas das maiores empresas do mundo”.
Dados sintéticos
Ao mesmo tempo, baseado profissionalmente em dados gerados por IA, já foi efetivamente usado em treinamento de IA. Aos olhos de alguns profissionais, agora a preocupação de que os dados gerados pela IA causem o colapso do modelo é um tanto "manchete".
Xie Chenguang, fundador da Light Wheel Intelligence, disse ao Geek Park que, conforme mencionado em jornais estrangeiros, o uso de dados gerados por IA para treinar modelos de IA leva a falhas, e os métodos experimentais são relativamente tendenciosos. Mesmo os dados humanos podem ser divididos em utilizáveis e não utilizáveis, e os experimentos mencionados no artigo são usados diretamente para treinamento sem discriminação, em vez de serem direcionados como dados de treinamento após inspeção de qualidade e julgamento de eficácia. Obviamente, existe a possibilidade de travar o modelo.
Xie Chen revelou que, de fato, o GPT-4 da OpenAI usa uma grande quantidade de dados produzidos pelo modelo GPT-3.5 da geração anterior para treinamento. Sam Altman também expressou em uma entrevista recente que os dados sintéticos são uma maneira eficaz de resolver a escassez de dados de modelos grandes. O ponto principal é que existe um sistema completo para distinguir quais dados gerados pela IA são utilizáveis e quais não são, e para fornecer feedback contínuo com base no efeito do modelo treinado - esse é um dos truques exclusivos do OpenAI para se orgulhar do AI arena **, esta empresa não é tão simples quanto levantar mais dinheiro e comprar mais poder de computação.
Na indústria de IA, o uso de dados sintéticos para treinamento de modelos já se tornou um consenso que ainda não é conhecido por pessoas de fora.
Xie Chen, que costumava ser responsável por simulações de direção autônoma em empresas como Nvidia, Cruise e Weilai, acredita que, a julgar pela quantidade atual de dados para vários treinamentos de modelos em grande escala, nos próximos 2 a 3 anos, humanos os dados podem de fato estar "esgotados". No entanto, com base em sistemas e métodos especializados, os dados sintéticos gerados pela IA se tornarão uma fonte inesgotável de dados efetivos**. E os cenários de uso não se limitam a texto e imagens. A quantidade de dados sintéticos exigidos por setores como direção autônoma e robótica será muito maior do que a quantidade de dados de texto.
Os três elementos da IA são dados, poder de computação e algoritmos. A fonte de dados foi estabelecida e o grande modelo do algoritmo está em constante evolução. A única pressão restante do poder de computação, acredito que o fundador da Nvidia, Huang Renxun, pode resolvê-lo suavemente.
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Os dados humanos serão usados pelo OpenAI, e daí?
"Maior que maior" (Maior que maior) é um anúncio da Apple naquele ano, que é usado para descrever o modelo de linguagem mais quente no campo da IA. Parece que não há nada de errado com isso.
De bilhões a dezenas de bilhões a centenas de bilhões, os parâmetros do grande modelo gradualmente se tornaram selvagens. Correspondentemente, a quantidade de dados usados para treinar IA também aumentou exponencialmente.
Tomando o GPT da OpenAI como exemplo, de GPT-1 para GPT-3, seu conjunto de dados de treinamento cresceu exponencialmente de 4,5 GB para 570 GB.
Na conferência Data+AI realizada pela Databricks não muito tempo atrás, Marc Andreessen, fundador da a16z, acreditava que os dados massivos acumulados pela Internet nas últimas duas décadas são uma razão importante para o surgimento dessa nova onda de IA, porque o o primeiro fornece ao segundo dados de treinamento utilizáveis.
No entanto, mesmo que os internautas deixem muitos dados úteis ou inúteis na Internet, para o treinamento de IA, esses dados podem chegar ao fundo do poço.
Um artigo publicado pela Epoch, uma organização de pesquisa e previsão de inteligência artificial, prevê que os dados de texto de alta qualidade serão esgotados entre 2023-2027.
Embora a equipe de pesquisa admita que há sérias limitações no método de análise e que a imprecisão do modelo é alta, é difícil negar que a velocidade com que a IA está consumindo conjuntos de dados é assustadora.
Quando os dados "humanos" acabarem, o treinamento de IA inevitavelmente usará o conteúdo produzido pela própria IA. No entanto, esse "loop interno" representará grandes desafios.
Não muito tempo atrás, pesquisadores da Universidade de Cambridge, Universidade de Oxford, Universidade de Toronto e outras universidades publicaram artigos apontando que o uso de conteúdo gerado por IA como IA de treinamento levará ao colapso do novo modelo. **
Então, qual é o motivo da falha causada pelos "dados gerados" para treinamento de IA? Existe alguma ajuda?
01 Consequências da "endogamia" da IA
No artigo intitulado "The Curse of Recursion: Training with Generated Data Makes Models Forget", os pesquisadores apontam que o "colapso do modelo" é um processo degenerado de modelos ao longo de várias gerações**.
Os dados gerados pela geração anterior de modelos irão poluir a próxima geração de modelos.Após várias gerações de "herança" de modelos, eles perceberão o mundo erroneamente.
O colapso do modelo ocorre em duas etapas:
Os pesquisadores primeiro treinaram os modelos GMM (Gaussian Mixture Model) e VAE (Variable Autoencoder) do zero. Tomando o GMM como exemplo, a extrema esquerda da figura abaixo é a distribuição normal dos dados originais.
Como você pode ver, o modelo se ajusta muito bem aos dados inicialmente. Na 50ª iteração, a distribuição de dados subjacentes começou a ser mal interpretada. Quando a iteração chega a 2.000 vezes, o modelo convergiu para um ponto muito pequeno, o que significa que o modelo começa a produzir respostas erradas constantemente.
Para verificar o impacto do pré-treinamento nos resultados experimentais, os pesquisadores conduziram experimentos no LLM (Large Language Model) OPT-125m de 125 milhões de parâmetros desenvolvido pela Meta. O conjunto de dados vem do wikitext2 da Wikipedia.
Ao contrário de modelos pequenos, como GMM e VAE, o custo do treinamento LLM do zero é muito alto, portanto, todos são pré-treinados. Os resultados experimentais são os seguintes:
Pode-se ver que na época do modelo da 9ª geração, o conteúdo da saída era completamente incompreensível.
Ilia Shumailov, um dos autores do artigo, disse que, com o tempo, os erros nos dados gerados pela IA se acumulam e os principais modelos treinados nesses dados desenvolvem uma visão ainda mais distorcida da realidade.
02 Por que o modelo falha?
A principal razão para o "colapso do modelo" é que a IA não é uma inteligência real. Por trás de sua capacidade de aproximar a "inteligência" está, na verdade, um método estatístico baseado em uma grande quantidade de dados.
Basicamente, todos os algoritmos de aprendizado de máquina não supervisionados seguem um padrão simples: Dada uma série de dados, treine um modelo que possa descrever as leis desses dados.
Nesse processo, os dados com maior probabilidade no conjunto de treinamento têm maior probabilidade de serem valorados pelo modelo, e os dados com menor probabilidade serão subestimados pelo modelo.
Por exemplo, suponha que precisamos registrar os resultados de 100 lançamentos de dados para calcular a probabilidade de cada face. Em teoria, a probabilidade de cada rosto aparecer é a mesma. Na vida real, devido ao pequeno tamanho da amostra, pode haver mais casos de 3 e 4. Mas para o modelo, os dados que ele aprende é que 3 e 4 têm maior probabilidade de aparecer, então ele tende a gerar mais resultados 3 e 4.
Outra causa secundária é o erro de aproximação de função. Também é fácil de entender, porque as funções reais costumam ser muito complexas.Em aplicações práticas, as funções simplificadas são frequentemente usadas para aproximar as funções reais, o que leva a erros.
03 Você está realmente sem sorte?
Preocupar!
Então, com cada vez menos dados humanos, realmente não há chance de treinamento em IA?
Não, ainda existem maneiras de resolver o problema de exaustão de dados para IA de treinamento:
"isolamento" de dados
À medida que a IA se torna cada vez mais poderosa, mais e mais pessoas começaram a usar a IA para se auxiliar em seu trabalho, e a AIGC na Internet explodiu, e "conjuntos de dados humanos limpos" podem se tornar cada vez mais difíceis de encontrar.
Daphne Ippolito, pesquisadora sênior do Google Brain, departamento de pesquisa de aprendizagem profunda do Google, disse que no futuro, será cada vez mais difícil encontrar dados de treinamento garantidos e de alta qualidade sem inteligência artificial.
É como um ancestral humano que sofre de uma doença genética de alto risco, mas tem uma capacidade reprodutiva extremamente forte. Em um curto período de tempo, ele multiplicou seus descendentes em todos os cantos da terra. Então, em algum momento, uma doença genética irrompe e toda a humanidade é extinta.
Para lidar com o "colapso do modelo", uma abordagem proposta pela equipe de pesquisa é a "vantagem do pioneiro", ou seja, manter o acesso a fontes de dados limpas geradas artificialmente, separando o AIGC dele.
Ao mesmo tempo, isso exige que muitas comunidades e empresas unam forças para manter os dados humanos livres da poluição AIGC.
Ainda assim, a escassez de dados humanos significa que existem oportunidades lucrativas para fazê-lo, e algumas empresas já estão fazendo isso. O Reddit disse que aumentaria significativamente o custo de acesso à sua API. Os executivos da empresa disseram que as mudanças foram (em parte) uma resposta às empresas de IA que roubaram seus dados. “O banco de dados do Reddit é realmente valioso”, disse o fundador e CEO do Reddit, Steve Huffman, ao The New York Times, “mas não precisamos dar todo esse valor de graça para algumas das maiores empresas do mundo”.
Dados sintéticos
Ao mesmo tempo, baseado profissionalmente em dados gerados por IA, já foi efetivamente usado em treinamento de IA. Aos olhos de alguns profissionais, agora a preocupação de que os dados gerados pela IA causem o colapso do modelo é um tanto "manchete".
Xie Chenguang, fundador da Light Wheel Intelligence, disse ao Geek Park que, conforme mencionado em jornais estrangeiros, o uso de dados gerados por IA para treinar modelos de IA leva a falhas, e os métodos experimentais são relativamente tendenciosos. Mesmo os dados humanos podem ser divididos em utilizáveis e não utilizáveis, e os experimentos mencionados no artigo são usados diretamente para treinamento sem discriminação, em vez de serem direcionados como dados de treinamento após inspeção de qualidade e julgamento de eficácia. Obviamente, existe a possibilidade de travar o modelo.
Xie Chen revelou que, de fato, o GPT-4 da OpenAI usa uma grande quantidade de dados produzidos pelo modelo GPT-3.5 da geração anterior para treinamento. Sam Altman também expressou em uma entrevista recente que os dados sintéticos são uma maneira eficaz de resolver a escassez de dados de modelos grandes. O ponto principal é que existe um sistema completo para distinguir quais dados gerados pela IA são utilizáveis e quais não são, e para fornecer feedback contínuo com base no efeito do modelo treinado - esse é um dos truques exclusivos do OpenAI para se orgulhar do AI arena **, esta empresa não é tão simples quanto levantar mais dinheiro e comprar mais poder de computação.
Na indústria de IA, o uso de dados sintéticos para treinamento de modelos já se tornou um consenso que ainda não é conhecido por pessoas de fora.
Xie Chen, que costumava ser responsável por simulações de direção autônoma em empresas como Nvidia, Cruise e Weilai, acredita que, a julgar pela quantidade atual de dados para vários treinamentos de modelos em grande escala, nos próximos 2 a 3 anos, humanos os dados podem de fato estar "esgotados". No entanto, com base em sistemas e métodos especializados, os dados sintéticos gerados pela IA se tornarão uma fonte inesgotável de dados efetivos**. E os cenários de uso não se limitam a texto e imagens. A quantidade de dados sintéticos exigidos por setores como direção autônoma e robótica será muito maior do que a quantidade de dados de texto.
Os três elementos da IA são dados, poder de computação e algoritmos. A fonte de dados foi estabelecida e o grande modelo do algoritmo está em constante evolução. A única pressão restante do poder de computação, acredito que o fundador da Nvidia, Huang Renxun, pode resolvê-lo suavemente.