SignalPlus: uma introdução à IA generativa

金色财经_

2023-08-01 12:22:01

Autor original: Steve Wang

“O que não posso criar, não entendo.”

-Richard Feynman

Prefácio

Você cria imagens impressionantes com Stable Diffusion e MidJourney em seus braços.

Você é proficiente em usar ChatGPT e LLaMa para criar palavras elegantes.

Você alterna entre MuseNet e MuseGAN para criar música de montanha.

Sem dúvida, a habilidade mais única dos seres humanos é criar, mas na tecnologia em constante mudança de hoje, criamos criando máquinas! Uma máquina pode desenhar obras de arte originais (desenhar), compor um artigo longo e coerente (escrever), compor música melodiosa (compor) e formular estratégias vencedoras para jogos complexos (jogar), dado um estilo. Esta tecnologia é Inteligência Artificial Gerativa (Inteligência Artificial Gerativa, GenAI), agora é apenas o começo da revolução GenAI, agora é o melhor momento para aprender GenAI.

1. Geração e Discriminação de Modelos

GenAI é uma palavra da moda, a essência por trás dela é generative model (modelo generativo), que é um ramo do aprendizado de máquina, o objetivo é treinar o modelo para gerar novos dados semelhantes ao conjunto de dados fornecido.

Suponha que temos um conjunto de dados de cavalos. Primeiro, podemos treinar um modelo generativo neste conjunto de dados para capturar as regras que regem as relações complexas entre pixels em imagens de cavalos. Este modelo é então amostrado para criar imagens realistas de cavalos que não existiam no conjunto de dados original, conforme mostrado na figura abaixo.

Para entender verdadeiramente os objetivos e a importância de um modelo generativo, é necessário compará-lo com um modelo discriminativo. Na verdade, a maioria dos problemas em aprendizado de máquina são resolvidos por modelos discriminativos, veja os exemplos a seguir.

Suponha que tenhamos um conjunto de dados de pinturas, algumas de Van Gogh e outras de outros artistas. Com dados suficientes, podemos treinar um modelo discriminativo para prever se uma determinada pintura é de Van Gogh, conforme mostrado na figura abaixo.

Ao usar um modelo discriminativo, cada exemplo no conjunto de treinamento tem um rótulo (rótulo). Para o problema de duas categorias acima, o rótulo da pintura de Van Gogh geralmente é 1 e o rótulo da pintura não-Van Gogh é 0. Na figura acima, a probabilidade final prevista do modelo é 0,83, então é muito provável que tenha sido feito por Van Gogh. Ao contrário de um modelo discriminativo, um modelo generativo não requer exemplos para conter rótulos porque seu objetivo é gerar novos dados, não prever rótulos para dados.

Depois de ler o exemplo, vamos usar a notação matemática para definir com precisão o modelo generativo e o modelo discriminativo:

O modelo discriminativo modela P(y|x), dados recursos x para estimar a probabilidade condicional do rótulo y.
Os modelos de modelo de geração P(x) estimam diretamente a probabilidade do recurso x e amostras dessa distribuição de probabilidade para gerar novos recursos.

Observe que, mesmo que fôssemos capazes de construir um modelo discriminativo perfeito para identificar pinturas de Van Gogh, ele ainda não saberia como criar uma pintura que se parecesse com Van Gogh, apenas produziria uma probabilidade de saber se a imagem é de Van Gogh possibilidade de mão. Pode-se ver que os modelos generativos são muito mais difíceis do que os modelos discriminativos.

2. Gere o framework do modelo

Antes de entrar na estrutura do modelo generativo, vamos jogar. Supondo que os pontos da figura abaixo sejam gerados por algum tipo de regra, chamamos essa regra de Pdados, agora vamos gerar um diferente x = (x 1, x 2) para que esse ponto parece Gerado pelas mesmas regras Pdata.

Como você geraria esse ponto? Você pode usar os pontos dados para gerar um modelo P em sua mente, e os pontos que você deseja podem ser gerados nas posições ocupadas por este modelo. Pode-se ver que o modelo P é a estimativa dos dados P. Então o modelo P mais simples é a caixa laranja na figura abaixo. Os pontos só podem ser gerados dentro da caixa, mas não fora da caixa.

Para gerar um novo ponto, podemos escolher aleatoriamente um ponto da caixa ou, mais rigorosamente, amostrar da distribuição do modelo Pmodelo. Este é um modelo generativo minimalista. Você cria um modelo (caixa laranja) a partir dos dados de treinamento (pontos pretos) e, em seguida, faz uma amostra do modelo, esperando que os pontos gerados sejam semelhantes aos pontos do conjunto de treinamento.

Agora podemos propor formalmente uma estrutura para aprendizagem generativa.

Vamos agora expor a distribuição de geração de dados real Pdados e ver como a estrutura acima pode ser aplicada a este exemplo. A partir da figura abaixo, podemos ver que a regra de geração de dados Pdados é que os pontos são distribuídos apenas uniformemente na terra e não aparecerão no oceano.

Claramente, nosso modelo P é uma simplificação da regra Pdados. Examinar os pontos A, B e C na figura acima pode nos ajudar a entender se o modelo Pmodelo imita com sucesso a regra Pdados.

O ponto A não está de acordo com a regra Pdata porque aparece no mar, mas pode ser gerado pelo modelo Pmodel porque aparece dentro da caixa laranja.
O ponto B não pode ser gerado pelo modelo P porque aparece fora da caixa laranja, mas está em conformidade com a regra Pdados porque aparece em terra.
O ponto C é gerado pelo modelo Pmodel, e está em conformidade com a regra Pdados.

Este exemplo mostra os conceitos básicos por trás da modelagem generativa. Embora seja muito mais complicado usar modelos generativos na realidade, a estrutura básica é a mesma.

3. O primeiro modelo generativo

Suponha que você seja o Chief Fashion Officer (CFO) de uma empresa e seu trabalho seja criar novas roupas da moda. Este ano você recebeu 50 conjuntos de dados sobre colocações de moda (conforme mostrado abaixo) e precisa criar 10 novas colocações de moda.

Embora você seja o diretor de moda, você também é um cientista de dados, então decide usar modelos generativos para resolver esse problema. Depois de ler as 50 imagens acima, você decide usar cinco recursos, tipo de acessórios (tipo de acesso), cor da roupa (cor da roupa), tipo de roupa (tipo de roupa), cabelo Color (cor do cabelo) e tipo de cabelo (tipo de cabelo), para descrever a colocação de moda.

Os 10 principais recursos de dados de imagem são os seguintes.

Cada característica também tem um número diferente de autovalores:

3 tipos de acessórios (tipo acesso):

Em branco, redondo, óculos de sol

8 cores de roupas:

Preto, Azul 01, Cinza 01, Verde Pastel, Laranja Pastel, Rosa, Vermelho, Branco

4 tipos de roupas:

Moletom com capuz, macacão, camisa com decote redondo, camisa com decote em V

6 cores de cabelo:

Preto, Loiro, Castanho, PastelPink, Vermelho, SilverGray

7 tipos de cabelo:

NoHair, LongHairBun, LongHairy, LongHairLiso, ShortHairShortWaved, ShortHairShortFlat, ShortHairFrizzle

Dessa forma, existem 3 * 8 * 4 * 6 * 7 = 4032 combinações de recursos, portanto, pode-se imaginar que o espaço amostral contém 4032 pontos. A partir dos 50 pontos de dados fornecidos, pode-se ver que Pdata prefere certos valores de recursos para diferentes recursos. Pode-se ver na tabela acima que há mais cores de roupas brancas e cores de cabelo cinza-prateado na imagem. Como não conhecemos os dados P reais, podemos usar apenas esses 50 dados para construir um modelo P para que seja semelhante aos dados P.

3.1 Modelo minimalista

Um dos métodos mais simples é atribuir um parâmetro de probabilidade a cada ponto nas 4032 combinações de recursos, então o modelo contém 4031 parâmetros, porque a soma de todos os parâmetros de probabilidade é igual a 1. Agora vamos verificar 50 dados um por um, e então atualizar os parâmetros do modelo **(**θ 1 ,θ 2 ,...,θ 4031 ), a expressão de cada parâmetro é:

Entre eles, N é o número de dados observados, ou seja, 50, e nj é o número da jª combinação de recursos que aparece nos 50 dados.

Por exemplo, a combinação de recursos (chamada de combinação 1) de (Cabelo Comprido, Vermelho, Redondo, Camisa, Pescoço, Branco) aparece duas vezes e, em seguida,

Por exemplo, se a combinação de características (chamada combinação 2) de (LongHairStraight, Red, Round, ShirtScoopNeck, Blue 01) não aparecer, então

De acordo com as regras acima, calculamos um valor θ para todas as combinações 4031. Não é difícil ver que existem muitos valores θ que são 0. O que é pior é que não podemos gerar novas imagens invisíveis ( θ = 0 significa que nenhuma imagem com essa combinação de recursos já foi observada). Para corrigir isso, basta adicionar o número total de recursos, d, ao denominador e 1 ao numerador, uma técnica chamada suavização de Laplace.

Agora, toda combinação (incluindo aquelas que não estão no conjunto de dados original) tem uma probabilidade de amostragem diferente de zero, no entanto, este ainda não é um modelo generativo satisfatório, pois a probabilidade de um ponto fora do conjunto de dados original é uma constante. Se tentarmos usar tal modelo para gerar uma pintura de Van Gogh, ele operará nas duas pinturas a seguir com igual probabilidade:

Reproduções de pinturas originais de Van Gogh (não no conjunto de dados original)
Pinturas feitas de pixels aleatórios (não no conjunto de dados original)

Obviamente, este não é o modelo generativo que queremos, esperamos que ele possa aprender alguma estrutura inerente dos dados, para que possa aumentar o peso da probabilidade das regiões no espaço amostral que considera mais prováveis, em vez de colocar todos os pesos de probabilidade no ponto de existência do conjunto de dados.

3.2 Modelo subsimplificado

O modelo Naive Bayes (Naive Bayes) pode reduzir bastante o número de combinações dos recursos acima e, de acordo com seu modelo, cada recurso é considerado independente um do outro. Voltando aos dados acima, a cor do cabelo de uma pessoa (característica xj ) não está relacionada com a cor de suas roupas (característica xk ), expressa em uma expressão matemática é:

p(xj | xk) = p(xk)

Com essa suposição, podemos calcular

O modelo Naive Bayesiano simplifica o problema original "estimativa de probabilidade para cada combinação de recursos" para "estimativa de probabilidade para cada recurso". Acontece que precisamos usar 4031 ( 3 * 8 * 4 * 6 * 7) parâmetros , agora são necessários apenas 23 ( 3 + 8 + 4 + 6 + 7) parâmetros, e a expressão de cada parâmetro é:

Entre eles, N é o número de dados observados, ou seja, 50, n*kl é o número do kth recurso e o ****l *** o autovalor abaixo de seu número.

Através das estatísticas de 50 dados, a tabela a seguir fornece os valores dos parâmetros do modelo Naive Bayesian.

Para calcular a probabilidade de um modelo gerar uma feição de dados, basta multiplicar as probabilidades na tabela acima, por exemplo:

A combinação acima não apareceu no conjunto de dados original, mas o modelo ainda atribuiu a ela uma probabilidade diferente de zero, portanto, ainda pôde ser gerada pelo modelo. Assim, os modelos Naive Bayesianos são capazes de aprender alguma estrutura dos dados e usá-la para gerar novos exemplos não vistos no conjunto de dados original. A imagem abaixo é uma imagem de 10 novas colocações de moda geradas pelo modelo.

Neste problema, apenas 5 features pertencem a dados de baixa dimensão. É razoável para o modelo Naive Bayesian supor que elas são independentes umas das outras, então os resultados gerados pelo modelo não são ruins. Vejamos um exemplo de modelo colapso.

4. Dificuldades na geração de modelos

4.1 Dados de alta dimensão

Como diretor de moda, você gerou com sucesso 10 novas colocações de moda com Naive Bayesian. Você está tão confiante de que seu modelo é invencível até encontrar o seguinte conjunto de dados.

O conjunto de dados não é mais representado por cinco feições, mas representado por 32* 32 = 1024 pixels, cada valor de pixel pode ir de 0 a 255, 0 significa branco, 255 significa preto. A tabela a seguir lista os valores de pixels de 1 a 5 para as 10 primeiras imagens.

Use o mesmo modelo para gerar 10 conjuntos de novas colocações de moda. O seguinte é o resultado da geração do modelo. Cada um é feio e semelhante, e diferentes recursos não podem ser distinguidos. Por que isso acontece?

Em primeiro lugar, uma vez que o modelo Naive Bayesiano amostra pixels independentemente, os pixels adjacentes são realmente muito semelhantes. Para roupas, de fato, os pixels devem ser aproximadamente os mesmos, mas o modelo é amostrado aleatoriamente, então as roupas na foto acima são todas coloridas. Em segundo lugar, há muitas possibilidades em um espaço amostral de alta dimensão, das quais apenas uma fração é identificável. Se um modelo Naive Bayesiano lida diretamente com valores de pixels tão altamente correlacionados, as chances dele encontrar uma combinação satisfatória de valores são muito pequenas.

Resumindo, para espaços amostrais com dimensões baixas e baixa correlação de recursos, o efeito Naive Bayesiano é muito bom por meio de amostragem independente; mas para espaços amostrais com dimensões altas e alta correlação de recursos, pixels de amostragem independentes são usados para encontrar rostos humanos efetivos são quase impossível.

Este exemplo destaca duas dificuldades que os modelos generativos devem superar para serem bem-sucedidos:

Como o modelo lida com dependências condicionais entre recursos de alta dimensão?
Como o modelo encontra uma proporção muito pequena de observações que satisfazem a condição de um espaço amostral de alta dimensão?

Para que os modelos generativos sejam bem-sucedidos em espaços amostrais de alta dimensão e altamente correlacionados, modelos de aprendizado profundo devem ser utilizados. Precisamos de um modelo que possa inferir estruturas relevantes a partir dos dados, em vez de saber quais suposições fazer com antecedência. O aprendizado profundo pode formar seus próprios recursos no espaço de baixa dimensão, e essa é uma forma de aprendizado de representação (aprendizado de representação).

4.2 Aprendizagem de representação

O aprendizado de representação é aprender o significado da representação de dados de alta dimensão.

Suponha que você vá encontrar uma internauta que nunca conheceu, e muitas pessoas não conseguem encontrá-la no local de encontro, então você liga para ela para descrever sua aparência. Acredito que você não dirá que a cor do pixel 1 da sua imagem é preta, a cor do pixel 2 é preto claro, a cor do pixel 3 é cinza e assim por diante. Pelo contrário, você pensará que os internautas terão uma compreensão geral da aparência das pessoas comuns e, em seguida, fornecerão essa compreensão para descrever as características do grupo de pixels, por exemplo, você tem cabelo preto curto e bonito, usando um par de copos de ouro e assim por diante. Normalmente, com não mais de 10 dessas descrições, um internauta pode gerar uma imagem sua de sua mente. A imagem pode ser grosseira, mas não impede que o internauta o encontre entre centenas de pessoas, mesmo que nunca o tenha visto.

Essa é a ideia central por trás do aprendizado de representação, em vez de tentar modelar diretamente o espaço amostral de alta dimensão (espaço amostral de alta dimensão), mas usando algum espaço latente de baixa dimensão (espaço latente de baixa dimensão). space ) para descrever cada observação no conjunto de treinamento e, em seguida, aprender uma função de mapeamento (função de mapeamento), que pode pegar um ponto no espaço latente e mapeá-lo para o espaço amostral original. Em outras palavras, cada ponto no espaço latente representa uma característica dos dados de alta dimensão.

Se as palavras acima não forem fáceis de entender, consulte o conjunto de treinamento abaixo, que consiste em algumas imagens jar em escala de cinza.

Não é difícil perceber que esses potes podem ser descritos apenas por duas características: altura e largura. Portanto, podemos converter o espaço de pixel de alta dimensão da imagem em um espaço latente bidimensional, conforme mostrado na figura abaixo. Dessa forma, podemos amostrar (pontos azuis) do espaço latente e, em seguida, convertê-lo em uma imagem por meio da função de mapeamento f.

Não é fácil para a máquina perceber que o conjunto de dados original pode ser representado por um espaço latente mais simples. Primeiro, a máquina precisa determinar que altura e largura são as duas dimensões do espaço latente que melhor descrevem o conjunto de dados e, então, aprender a função de mapeamento f pode pegar um ponto neste espaço e mapeá-lo para um mapa em escala de cinza. O aprendizado profundo nos permite treinar máquinas para encontrar esses relacionamentos complexos sem orientação humana.

5. Classificação dos modelos gerados

Todos os tipos de modelos generativos visam resolver a mesma tarefa, mas todos eles modelam funções de densidade de maneiras ligeiramente diferentes e geralmente se enquadram em duas categorias:

modelando explicitamente (modelando explicitamente) a função de densidade,

Mas, de alguma forma, restrinja o modelo para calcular a função de densidade, como normalizando o modelo FLOW(normalizando o modelo FLOW)

Mas, para aproximar a função de densidade, como autoencoder variacional (autoencoder iacional, VAE) e modelo de difusão (modelo de difusão)

Modelando implicitamente (modelando implicitamente) a função de densidade, através de um processo estocástico que gera dados diretamente. Por exemplo, Rede adversária generativa (rede adversária generativa, GAN)

Resumir

A inteligência artificial generativa (GenAI) é um tipo de inteligência artificial que pode ser usada para criar novos conteúdos e ideias, incluindo texto, imagens, vídeo e música. Como toda inteligência artificial, GenAI é um modelo supergrande pré-treinado por um modelo de aprendizado profundo baseado em uma grande quantidade de dados, geralmente chamado de modelo de fundação (FM). Com o GenAI, podemos desenhar imagens mais legais, escrever textos mais bonitos e compor músicas mais comoventes, mas o primeiro passo exige que entendamos como o GenAI cria coisas novas, como disse o chefe do artigo Richard Feynman "Não vou entender o que não posso criar".

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
BTC Hits New High
90k Popularidade
ETH Breaks $3,000
43k Popularidade
VIP Exclusive Airdrop Carnival
15k Popularidade
4Pump.Fun Debuts on Gate
4k Popularidade
5Fed June Meeting Minutes
5k Popularidade
6Join Gate VIP to Win MacBook
29k Popularidade
7Trump Tariff Hikes
16k Popularidade
8Gate xStocks Trading Share
23k Popularidade
9HK Stablecoin Rules
13k Popularidade
10Truth Social Crypto ETF
3k Popularidade

Pino