Comprima tudo diretamente! O cientista-chefe da OpenAI, Ilya Sutskever, vê o aprendizado não supervisionado dessa maneira

2023-08-21 01:46:52

Fonte original: Heart of the Machine

Crédito da imagem: Gerado por Unbounded AI‌

Recentemente, Ilya Sutskever, cientista-chefe da OpenAI, deu uma palestra no Simons Institute, que se concentra na pesquisa de teoria computacional. Em uma frase, podemos ver o aprendizado não supervisionado de uma perspectiva comprimida. Além disso, ele compartilhou muitos outros insights interessantes. O coração da máquina selecionou o conteúdo geral do discurso, esperando ajudar os leitores a entender o aprendizado não supervisionado mais profundamente.

Sutskever falou pela primeira vez sobre a mudança de sua direção de pesquisa. Ele disse: "Não muito tempo atrás, mudei todo o meu foco de pesquisa para pesquisa de alinhamento de IA." Esta é a equipe "Superalignment (super alinhamento)" estabelecida pela OpenAI há algum tempo. , que ele co-lidera com Jan Leike. Sutskever disse que eles alcançaram alguns resultados de pesquisa no alinhamento da IA, mas esse não é um tópico sobre o qual esta palestra se concentra.

O tópico desta palestra é "Uma observação sobre generalização (uma observação sobre generalização)", e Ilya Sutskever fala especificamente sobre uma teoria que explica o aprendizado não supervisionado.

Primeiro, Ilya Sutskever coloca uma série de questões amplas sobre "aprender": O que exatamente é aprender? Por que aprender é útil? Por que o aprendizado deve ser útil? Por que os computadores devem ter a capacidade de aprender? Por que as redes neurais podem aprender? Por que os modelos de aprendizado de máquina podem aprender as leis dos dados? Podemos descrever a aprendizagem em termos matemáticos?

Aprendizado Supervisionado

Sutskever começa com aprendizado supervisionado. Ele diz que houve um trabalho formal significativo sobre aprendizado supervisionado, resultado de vários pesquisadores anos atrás; esses resultados são frequentemente referidos como teoria estatística de aprendizado.

A vantagem do aprendizado supervisionado é que ele pode fornecer uma condição matemática precisa para o sucesso do aprendizado. Ou seja, se você tiver alguns dados de alguma distribuição de dados, poderá obter com sucesso uma baixa perda de treinamento e tiver dados de treinamento suficientes (mais graus de liberdade do que a distribuição de dados), então seu erro de teste deve ser baixo.

Matematicamente, o aprendizado deve ser bem-sucedido se uma função dentro de uma classe de funções puder ser encontrada com menor perda de treinamento. Portanto, o aprendizado supervisionado é muito simples.

Os pesquisadores descobriram alguns teoremas em pesquisas relacionadas, o seguinte é um exemplo. Sutskever disse que levaria cerca de cinco minutos para explicar o teorema, mas aparentemente ele tem tempo limitado para sua palestra.

Em suma, o teorema é "elegante" e demonstra um processo de aprendizado supervisionado com apenas três linhas de derivação matemática.

Assim, a aprendizagem supervisionada é relativamente bem compreendida. Sabemos por que funcionará - desde que possamos coletar grandes conjuntos de dados de aprendizado supervisionado, podemos ter certeza de que os modelos ficarão cada vez melhores. Claro que outro ponto também é muito importante, ou seja, garantir que a distribuição do teste seja consistente com a distribuição do treinamento, só assim a teoria do aprendizado supervisionado pode ser efetiva.

Portanto, o conceito de aprendizado supervisionado é muito simples. Também já temos respostas sobre por que o aprendizado supervisionado funciona - sabemos por que o reconhecimento de fala e a classificação de imagens funcionam porque são baseados em aprendizado supervisionado eficiente e matematicamente garantido.

A propósito, Ilya Sutskever mencionou a dimensão VC. Ele mencionou que muitos pesquisadores em teoria estatística de aprendizado acreditam que a dimensão VC é um componente chave, mas o propósito da dimensão VC foi inventado para permitir que o modelo seja capaz de lidar com parâmetros com precisão infinita.

Por exemplo, se cada parâmetro do seu classificador linear tiver precisão infinita, mas a precisão dos números de ponto flutuante na realidade for limitada e a precisão diminuir, você poderá implementar algumas funções por meio da dimensão VC e converter isso linear O classificador é reduzido à forma de aprendizagem supervisionada descrita pela fórmula anterior.

O que é aprendizado não supervisionado?

Em seguida, veja o aprendizado não supervisionado. Em primeiro lugar, o que é aprendizagem não supervisionada? Ilya Sutskever disse que ainda não viu uma explicação satisfatória do aprendizado não supervisionado, e não sabemos como raciocinar sobre isso matematicamente - na melhor das hipóteses, podemos apenas fazer alguma intuição.

O aprendizado não supervisionado tem sido um sonho antigo do campo de aprendizado de máquina. Sutskever acredita que esse objetivo foi alcançado em estudos experimentais, onde o modelo olha para os dados sem ser informado sobre seu conteúdo e descobre a real e útil estrutura oculta neles.

Como isso aconteceu? Podemos ter certeza de que isso vai acontecer? Sutskever diz que não podemos, afinal não temos as mesmas garantias teóricas no aprendizado não supervisionado que temos no aprendizado supervisionado.

As pessoas têm explorado o aprendizado não supervisionado desde a década de 1980, usando terminologia semelhante. No experimento, as pessoas observaram que quando a quantidade de dados é pequena, o fenômeno de aprendizado não supervisionado não aparece, mas algumas ideias populares de desenvolvimento apareceram, como BERT, modelo de difusão, modelo de linguagem antiquado, etc. O aprendizado não supervisionado na época também era capaz de gerar algumas amostras interessantes, mas é claro que não era tão bom quanto a tecnologia de hoje.

Mas como não sabemos como funciona o aprendizado não supervisionado, sempre foi confuso.

Por exemplo, quando você otimiza para um determinado objetivo (como reconstrução de imagem ou previsão da próxima palavra), também pode se preocupar com outro objetivo (como classificação de imagem ou classificação de documento), e o modelo também pode ter um bom desempenho nesse objetivo não otimizado . Obtenha um bom desempenho. Mas por que? Não sei, esse é o resultado do experimento. Sutskever disse que foi como mágica.

Vamos abandonar a teoria e ir até o positivismo?

Sabemos que o aprendizado não supervisionado é aprender a estrutura na distribuição de entrada e, em seguida, obter algo dela que ajude a atingir o objetivo. Mas e se a distribuição de entrada for uma distribuição uniforme? Neste momento, vários algoritmos de aprendizado não supervisionados falharão. Como devemos tratar esse fenômeno? Sutskever diz que precisamos fazer algumas suposições.

Um método de aprendizado não supervisionado: correspondência de distribuição

Em seguida, Sutskever mostra uma maneira potencial de pensar sobre o aprendizado não supervisionado. Ele disse que esse método de aprendizado não supervisionado não se tornou popular, mas é muito interessante. Tem características semelhantes ao aprendizado supervisionado, ou seja, deve ser eficaz. por que? Isso envolve um processo de aprendizado não supervisionado chamado correspondência de distribuição.

Em seguida, deixe-me explicar brevemente. Suponha que existam duas fontes de dados X e Y sem correspondência entre elas; o objetivo do modelo é encontrar uma função F tal que a distribuição de F(X) se aproxime da distribuição de Y - esta é a restrição em F.

Essa restrição pode ser significativa para muitos cenários de aplicativos, como tradução automática e reconhecimento de fala. Por exemplo, se houver uma distribuição de sentenças em inglês, após usar a função F, podemos obter uma distribuição próxima à distribuição de sentenças em francês, então podemos dizer que obtivemos as restrições reais de F.

Se as dimensões de X e Y forem altas o suficiente, então F pode ter um grande número de restrições. Na verdade, você pode até recuperar um F completo dessas restrições. Este é um exemplo de aprendizado supervisionado de aprendizado não supervisionado e deve funcionar, assim como o aprendizado supervisionado deve funcionar.

Além disso, as cifras de substituição também se encaixam nessa estrutura.

Sutskever disse que descobriu o fenômeno de forma independente em 2015. Isso o fez pensar: talvez possamos descrever o aprendizado não supervisionado em alguma forma matemática significativa.

Obviamente, o cenário de tradução automática descrito acima é um cenário artificial simplificado, que não está em conformidade com a situação real da aplicação, e o cenário de aprendizado não supervisionado correspondente é naturalmente o mesmo.

Em seguida, Sutskever descreverá seu método proposto - que pode fornecer uma explicação matemática para o aprendizado não supervisionado e garantir que os resultados do aprendizado não supervisionado sejam bons.

Como todos sabemos, a compressão é uma previsão e todo compressor pode ser transformado em um preditor e vice-versa. Existe uma correspondência um-para-um entre o compressor de conjunto e o preditor de conjunto.

Sutskever apontou que, para ilustrar mais claramente o pensamento sobre o aprendizado não supervisionado, é vantajoso usar o aspecto de compressão da discussão.

Com base nisso, ele fez um experimento mental.

Digamos que você tenha dois conjuntos de dados X e Y, que são dois arquivos em seu disco rígido; então você tem um ótimo algoritmo de compactação C. Suponha também que você faça compressão conjunta em X e Y, ou seja, concatene-os primeiro e depois alimente-o ao compressor.

A questão importante agora é: o que um compressor bom o suficiente fará?

Sutskever deu uma resposta bastante intuitiva: o compressor usa os padrões presentes em X para ajudar a comprimir Y; e vice-versa.

Ele disse que a cena da tarefa de previsão realmente tem um fenômeno semelhante, mas parece ser mais intuitivo dizer no contexto compactado.

Se o seu compactador for bom o suficiente, os resultados compactados dos arquivos concatenados não devem ser piores do que os resultados compactados separados.

Portanto, a compressão adicional que você obtém ao concatenar é algum tipo de estrutura compartilhada que seu compressor percebe. Quanto melhor o compressor, mais estruturas comuns ele pode extrair.

A diferença entre os dois resultados da compressão é a estrutura compartilhada, a informação algorítmica mútua.

Da mesma forma, você pode pensar em Y como dados para uma tarefa supervisionada, X como dados para uma tarefa não supervisionada, e você tem alguma forma de raciocínio matemático sobre essas informações - você pode usar os padrões em X para ajudar na tarefa Y.

Observe também como ele se generaliza para correspondência de distribuição. Se, no caso de correspondência de distribuição, digamos que X é o idioma 1 e Y é o idioma 2, e existe alguma função simples F que transforma de uma distribuição para outra; então um bom compressor também notará isso e colocará Utilizing it, é até possível restaurar a função internamente.

Desta forma, um loop fechado é formado. Então, como descrevemos o aprendizado não supervisionado na forma matemática?

Formalização matemática da aprendizagem não supervisionada

Observe que a descrição nesta seção usa a descrição do cenário de compressão e o cenário de previsão de forma intercambiável.

Primeiro, suponha que temos um algoritmo de aprendizado de máquina A cujo papel é comprimir Y. O algoritmo A tem acesso a X. Seja X o documento número 1 e Y o documento número 2. Queremos que nosso algoritmo/compressor de aprendizado de máquina comprima Y e possa usar X quando apropriado. O objetivo é comprimir Y o máximo possível.

Então temos que nos perguntar: Qual é o maior arrependimento (arrependimento) de usar esse algoritmo?

Sutskever explicou: "Se estou fazendo um bom trabalho e meus arrependimentos são poucos, significa que tenho toda a ajuda que posso obter desses dados não rotulados. Os dados não rotulados ajudaram tanto quanto possível". sem arrependimentos sobre isso." O que significa que não há melhores preditores disponíveis para um melhor algoritmo de compressão. "Aproveitei ao máximo meus dados não rotulados."

Sutskever vê isso como um passo importante para pensar sobre o aprendizado não supervisionado. Você não sabe se seu conjunto de dados não supervisionado é realmente útil, mas se você tiver pouco arrependimento em um algoritmo de aprendizado supervisionado, terá o melhor resultado, nenhum resultado melhor é possível.

Agora em um território teórico um tanto obscuro.

Usar a complexidade de Kolmogorov como o compressor final nos dá um algoritmo com arrependimento ultrabaixo, mas não é realmente um algoritmo porque não é computável.

Vamos explicar brevemente a complexidade de Kolmogorov: É como se você me desse alguns dados e, para comprimi-los, fornecerei o programa mais curto possível. A complexidade de Kolmogorov é igual ao comprimento deste programa mais curto.

Seja C um compressor computável, então para todo X a complexidade do compressor Kolmogorov é menor que a saída arbitrária do compressor C mais o número de caracteres de código necessários para implementar o compressor.

Podemos provar isso usando um argumento de simulação. Suponha que haja um compressor C muito bom, então pode ser um programa de computador, se este programa de computador for entregue a K para executar, então o custo exigido por K é o comprimento deste programa. O compressor Kolmogorov pode simular outros programas de computador e outros compressores e, portanto, não é computável. É como um programa gratuito que emula todos os programas de computador, mas também é o melhor compressor possível.

Agora generalizamos o compressor Kolmogorov para usar informações adicionais. Sabemos que o compressor Kolmogorov não é computável, não é decidível, mas como pesquisar todos os programas. É como usar uma rede neural para ajustar parâmetros via SGD (Stochastic Gradient Descent) para procurar um programa. Esse processo é executado em um computador com determinados recursos (memória, número de etapas), que é como um minúsculo compressor Kolmogorov. Há semelhanças entre os dois.

As redes neurais podem simular applets, que são pequenos computadores com loops/circuitos. Podemos usar o SGD para treinar esses computadores para encontrar seus "circuitos" a partir dos dados.

Os argumentos das simulações também se aplicam aqui. Se você deseja projetar uma arquitetura de rede neural melhor, achará difícil, porque adicionar ou modificar conexões pode ser simulado por outras arquiteturas de rede neural, mas na verdade é difícil de fazer. Porque esses são os casos raros que podem levar a grandes melhorias. Assim como a transição de RNN para Transformer. As RNNs têm um gargalo: o estado oculto. Mas se pudermos encontrar uma maneira de fazer com que o RNN tenha um estado oculto muito grande, seu desempenho poderá alcançar o Transformer novamente.

Portanto, podemos usar a complexidade condicional de Kolmogorov como uma solução para aprendizado não supervisionado da seguinte maneira:

onde C é um compressor computável e K(Y|X) é o comprimento do programa mais curto que gera Y se X puder ser usado.

Esta é uma solução de ultra-baixo arrependimento para aprendizado não supervisionado que não é computável, mas fornece uma estrutura útil.

Compacte tudo diretamente!

Sutskever vai um passo além e menciona que "comprimir tudo diretamente" também é possível.

A complexidade condicional de Kolmogorov K(Y|X) não é natural no contexto do aprendizado de máquina porque comprime Y com base em X, que é praticamente impossível de condicionar em grandes conjuntos de dados, pelo menos por enquanto. Podemos ajustar grandes conjuntos de dados, mas é difícil condicioná-los.

E o que foi dito acima diz: se você quiser fazer previsões sobre algo Y que você supervisiona, um compressor Kolmogorov regular que comprime dados concatenados X e Y funcionará tão bem quanto um compressor condicional. É claro que existem mais sutilezas nos detalhes reais, mas o que isso realmente significa é que podemos usar um compressor Kolmogorov comum para resolver o aprendizado não supervisionado -- apenas concatenar todos os seus dados e executar a compactação, para que você possa Bons resultados foram obtido em tarefas de supervisão.

A prova disso é mais complicada, então não vou entrar nisso aqui.

A conclusão importante é que a compactação regular de Kolmogorov (sem ser condicional a um determinado conjunto de dados) é o "melhor uso possível" de dados não rotulados. Esta é a solução para o aprendizado não supervisionado.

compressão articular é a probabilidade máxima

O último ponto que Sutskever destacou em sua palestra foi o seguinte: essa compressão articular é a mais provável, desde que não haja overfitting.

Se você tiver um conjunto de dados, a soma das probabilidades para os parâmetros fornecidos é o custo de compactar esse conjunto de dados. Você também paga o custo dos parâmetros de compactação. E se você quiser compactar dois conjuntos de dados, sem problemas, basta adicionar pontos de dados ao seu conjunto de dados, ou seja, adicionar mais itens à soma da operação de soma acima.

Portanto, a compactação conjunta por concatenação de dados é uma abordagem muito natural no contexto do aprendizado de máquina. Em contraste, passar a complexidade condicional de Kolmogorov é muito mais problemático.

Podemos até usá-lo para explicar como as redes neurais funcionam. Podemos usar o SGD para grandes redes neurais como nosso grande buscador de programas. Quanto maior a rede neural, melhor ela pode se aproximar do compressor Kolmogorov regular. Sutskever comentou: "Talvez seja por isso que gostamos de grandes redes neurais, porque podemos aproximar a ideia de um compressor Kolmogorov regular irrealizável sem arrependimentos. À medida que treinamos redes neurais cada vez maiores, o arrependimento aumentará. Baixo."

Essa teoria também se aplica a modelos GPT?

A resposta de Sutskever para isso é sim, mas para explicar o comportamento do modelo GPT, sem citar uma declaração sobre compressão ou aprendizado supervisionado, você pode dizer que a "teoria" do GPT pode ser obtida pelo raciocínio sobre a distribuição condicional do texto.

Então, podemos encontrar outros métodos de verificação direta para testar essa teoria? Podemos explicá-lo em termos de outros domínios como a visão? Podemos obter um bom aprendizado não supervisionado se fizermos isso em dados de pixel?

Sutskever disse que já fez esse estudo em 2020, iGPT. Claro, esta é principalmente uma pesquisa de prova de conceito, e ainda há um longo caminho a percorrer desde a aplicação prática. Para mais detalhes, consulte o artigo "Pré-treinamento generativo a partir de pixels".

O artigo mostra que, se você puder fazer um ótimo preditor da próxima etapa, poderá obter um ótimo aprendizado não supervisionado. Este artigo comprova a afirmação no campo da imagem.

Em termos simples, primeiro converta a imagem em uma sequência de pixels, cada pixel tem um valor de densidade discreto. Tudo o que precisa ser feito é usar o mesmo Transformer para prever o próximo pixel. Isso é diferente do BERT, que prevê o próximo token, porque essa é a probabilidade de maximizar a compactação.

Vejamos o resultado:

Como mostrado, esta é a precisão da sonda linear no CIFAR-10 para diferentes tamanhos de modelos iGPT, ou seja, a próxima etapa da precisão da previsão na tarefa de previsão de pixels de aprendizado não supervisionado. Pode-se ver que prever o próximo pixel é tão eficaz quanto prever a próxima palavra. O aprendizado não supervisionado funciona melhor quando o tamanho do modelo é maior.

Eles realizaram estudos experimentais e constataram que no ImageNet, a atuação do iGPT, que foi ampliada em vários aspectos, pode se aproximar do estado da arte do aprendizado supervisionado, mas ainda existem algumas lacunas.

No entanto, Sutskever acredita que este é um problema computacional, porque os métodos de aprendizado supervisionados, como o SimCLR, usam grandes imagens de alta resolução e fornecem imagens pequenas de 64 × 64 para o gigante Transformer (6,8 bilhões de parâmetros). É como prever o próximo pixel de maneira não supervisionada com base em um grande conjunto de dados e, em seguida, ajustar sondas lineares no ImageNet, com ótimos resultados.

No CIFAR-10, o iGPT-L com 1,36 bilhão de parâmetros alcançou uma precisão de 99%, conforme mostrado na figura abaixo.

Representação linear

No final da palestra, Sutskever disse que queria falar sobre representações lineares.

“Gosto da teoria da compressão porque antes não havia uma maneira de pensar sobre o aprendizado não supervisionado de maneira rigorosa”, diz ele. Agora podemos fazer isso até certo ponto. Mas a teoria da compressão não pode explicar diretamente por que as representações são linearmente separáveis, nem pode explicar que deve haver sondas lineares. As representações lineares são onipresentes e as razões para sua formação devem ser profundas. Sutskever acredita que seremos capazes de articulá-lo no futuro.

Outra coisa que ele acha interessante é que o modelo autorregressivo supera o BERT em termos de representação linear. Mas ainda não está claro o porquê.

No entanto, Sutskever deu sua própria especulação: ao prever o próximo pixel com base em todos os pixels anteriores, o modelo precisa observar a estrutura de longo alcance dos dados. O BERT descarta alguns tokens de pixel ao processar vetores e, ao considerar um pouco do passado e um pouco do futuro, o modelo pode realmente obter boas previsões. Desta forma, todas as tarefas difíceis são removidas e a dificuldade das tarefas é bastante reduzida. A tarefa de previsão mais difícil em prever o próximo pixel é muito mais difícil do que a tarefa de previsão mais difícil no caso de previsão BERT.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas