Divulgados os primeiros resultados da pesquisa xAI de Musk! Membros fundadores Jovens e ex-alunos da classe Yao trabalharam em conjunto

Fonte: Qubits

A xAI de Musk, o primeiro resultado de pesquisa pública está aqui!

Uma das obras comuns é Greg Yang, membro fundador do xAI e discípulo de Yau Chengtong.

Anteriormente, Yange declarou publicamente que sua direção de pesquisa em xAI é "Matemática para IA" e "IA para Matemática".

Um dos destaques é continuar sua pesquisa anterior:

Tensor Programs, uma linguagem de programação unificada que descreve arquiteturas de redes neurais – realizações relacionadas, já disponível no GPT-4.

Este novo artigo, que pertence à série, centra-se em "como treinar infinitas redes profundas".

Para este fim, o próprio Yange também conduziu especialmente uma transmissão ao vivo compartilhando no X.

Vamos dar uma olhada em que conteúdo maravilhoso vale a pena marcar ~

Treinando Redes Neurais Infinitas Profundas

Em termos simples, este artigo estuda a expansão de redes residuais (ResNet) na direção de profundidade.

Sabemos que as redes residuais resolvem o problema da degradação do desempenho das redes neurais convolucionais profundas à medida que a profundidade aumenta. Mas, à medida que a rede continua a se aprofundar, treinar uma boa rede residual profunda ainda não é uma tarefa fácil:

Quando a rede se aprofundar, a escala de recursos continuará a aumentar, resultando em instabilidade da rede. Depois de aprofundar a rede, é necessário reajustar os hiperparâmetros, o que não é uma pequena quantidade de trabalho ...

A ideia para Yanger e seus amigos era encontrar um método paramétrico profundo que pudesse aprender recursos e alcançar a transferência de hiperparâmetros.

Eles pensaram pela primeira vez em dois limites para redes neurais infinitamente amplas: ou máquinas de kernel ou aprendizes de recursos. Para este último, os hiperparâmetros ideais não mudam com a largura.

Aqui, eles analisaram os limites de uma rede infinita usando a estrutura Tensor Programs.

Como mencionado anteriormente, Tensor Programs é um dos objetivos de pesquisa de longo prazo de Younger: construir a linguagem de programação subjacente que pode descrever e analisar arquiteturas de redes neurais em linguagem matemática.

Especificamente, os Programas Tensor consistem em funções de multiplicação e ativação matricial. Young descobriu que, se as funções da rede neural pudessem ser expressas nessa linguagem, elas poderiam ser automática e totalmente inicializadas para análise.

A parte de derivação matemática, sem expansão específica aqui, podemos sentir o estilo de pintura superficialmente...

Com base nessas análises derivadas, os autores propõem o método Depth-μP, que pode realizar a transferência de hiperparâmetros na direção de profundidade e simplificar muito o ajuste de hiperparâmetros em diferentes profundidades.

Depth-μP contém os seguintes pontos:

  • O coeficiente a/sqrt(L) inversamente proporcional à raiz quadrada de cada ramo residual e profundidade L.
  • A taxa de aprendizagem de cada matriz de peso diminui à medida que a profundidade L aumenta, dependendo do tipo de algoritmo de otimização. Para SGD, a taxa de aprendizagem leva um η constante, e para algoritmos de otimização adaptativa como Adam, a taxa de aprendizagem leva η/sqrt(L).

Vale a pena notar que os autores descobriram que quando a profundidade do bloco residual é 1, Profundidade-μP é a maneira ideal para a parametrização da profundidade, o que pode garantir que os hiperparâmetros convirjam com o aumento da profundidade e realizem a transferência do hiperparâmetro na direção da profundidade.

No entanto, quando a profundidade do bloco residual ≥ 2, a falha na migração do hiperparâmetro e a degradação do desempenho do treinamento ainda ocorrerão.

Além disso, o artigo explora o conceito de "diversidade de recursos" como um papel-chave em redes profundas.

Outro coautor do artigo é Dingli Yu, de Princeton. Ele se formou na Tsinghua Yao Class com um diploma de bacharel e atualmente está cursando um Ph.D. em ciência da computação em Princeton.

**O que Yanger disse na transmissão ao vivo? **

Durante a transmissão ao vivo, Yange também respondeu a perguntas de interesse do público. Sem alterar o significado original, os qubits resolveram alguns problemas.

P: Para muitos de nós, [o conteúdo do artigo] pode estar além da nossa compreensão. Mas eu me pergunto, como o modelo que você mencionou é diferente da tecnologia ChatGPT e OpenAI que podemos experimentar? Quais são as diferenças ou inovações significativas entre este artigo e os resultados da OpenAI?

Younger: Deixe-me fazer um breve comentário, e gostaria de dizer que essas propriedades não estão diretamente relacionadas a aplicações práticas no momento, mas mais como pesquisa na natureza.

Claro, o objetivo final de fazer tudo isso é tornar o modelo melhor, mais seguro e, em seguida, beneficiar a humanidade. O que estamos a fazer agora é descrever o efeito pretendido, que não tem necessariamente um impacto direto.

Agora que estamos no mesmo barco, estamos fazendo o que podemos, seja trabalho de curto prazo ou pesquisa aplicada de longo prazo, para fazê-lo funcionar para o benefício de todos.

P: Parece que você está construindo um cérebro de computador artificial capaz de raciocinar, então é nisso que você está trabalhando? Além disso, sou mãe e meu filho de 7 anos está muito interessado em matemática, você tem algum conselho que possa mantê-lo interessado e entusiasmado no campo da IA?

Mais jovem: A "nova web" refere-se a redes neurais artificiais, que eu acho que são a espinha dorsal de muitas tecnologias modernas, incluindo Google, Facebook, Instagram, etc. que você usa todos os dias, e esses serviços usam essas redes neurais artificiais por baixo. Estas redes nasceram há cerca de sessenta ou setenta anos inspiradas em redes neurais reais em animais e humanos, mas desviaram-se da neurociência real.

Essas redes são essencialmente problemas matemáticos, então podemos entender essas redes neurais em profundidade depois de entendermos esses novos problemas matemáticos e fazermos muitas análises.

Embora ainda não saibamos exatamente como os neurônios se conectam, através de pesquisas matemáticas, podemos otimizar essas redes neurais artificiais para ajudar as empresas de tecnologia a melhorar a vida das pessoas.

Em relação à sua segunda pergunta, é ótimo ouvir que seu filho está muito interessado em matemática. Esta é a base para criar grandes conquistas no campo da tecnologia e melhorar a vida de todos.

O conselho que gostaria de dar é que, em primeiro lugar, mantenha a paixão do seu filho pela matemática, o que é muito importante. Uma vez que você perde essa paixão, torna-se difícil continuar aprendendo.

Preste atenção também em observar o que ele gosta, tornando o processo de aprendizagem interessante e estimulando ainda mais o seu interesse. Ao mesmo tempo, também é necessário cultivar sua curiosidade sobre o princípio de como as coisas funcionam, e tentar cultivar um pensamento científico, que é movido pela curiosidade de estudar. É como desmontar as coisas e tentar entender como elas funcionam.

Se alguém perde o entusiasmo por explorar as verdades matemáticas do universo, pode ser difícil ganhar impulso. Em geral, recomendo que você cultive o profundo interesse e curiosidade do seu filho sobre o mundo, especialmente a natureza da matemática e da ciência.

P: Tenho uma pergunta mais abstrata. Você teve a ideia de que a profundidade se aproxima do infinito, e então escreveu este artigo com base nessa ideia. Já pensou em redes neurais com arquiteturas diferentes? Não uma arquitetura padrão com neurônios e inúmeras camadas, mas algo completamente diferente. Por exemplo, esses neurônios estão conectados de maneiras completamente diferentes, talvez algum tipo de quadrado?

Younger: Na verdade, os insights sobre a não-linearidade e o número de camadas em nosso trabalho são estudos muito rudimentares. Há certamente muitas questões que podem ser exploradas sobre qual é a estrutura adequada, ou que tipo de estrutura deve ser.

Por exemplo, a equipe da Meta já estudou o que acontece com os neurônios conectados aleatoriamente e obteve alguns resultados interessantes. Então, definitivamente há muito mais a fazer aqui. Agora eu realmente não tenho uma resposta concreta para dizer o que seria certo ou melhor estruturado.

Sobre Jange

Nascido na província de Hunan, Yang Ge foi para os Estados Unidos depois de se formar na escola primária, onde estudou em Harvard com o professor Chengtong Yau.

△ Yang Ge e Yau Chengtong, fonte: Yang Ge Twitter

Em 2017, Yange se formou em Harvard e depois entrou na Microsoft sob a recomendação de Shen Xiangyang.

Na Microsoft, Yang Ge foi muito elogiado por Shen Xiangyang. Alguns meses atrás, em um fórum chamado "Ciência Básica e Inteligência Artificial", Shen Xiangyang declarou publicamente:

Microsoft Research geralmente só recruta estudantes de doutorado, e Yange entrou na Microsoft Research como um graduado de graduação. Não só entrou na Microsoft Research, mas também se saiu extremamente bem nos últimos cinco anos, especialmente no desenvolvimento do GPT fez uma contribuição decisiva.

Vale a pena mencionar que ele mesmo admitiu que o GPT-4 usa seu método μTransfer (série de programas tensores).

A pesquisa de Young sobre Programas Tensor existe desde muito cedo, e "Tensor Programs I" foi publicado em 2019, e ele continuou a explorá-la em profundidade quando trabalhou na Microsoft. Ele acredita que quase qualquer computação em deep learning pode ser representada como Programas Tensor.

Em julho deste ano, Musk anunciou a formação de uma nova empresa, a xAI, e Young deixou a Microsoft para se juntar à equipe fundadora da xAI e se tornar um matemático da xAI.

Depois de se juntar à xAI, Young revelou mais de uma vez que o objetivo a longo prazo do projeto Tensor Programs é desenvolver uma "teoria de tudo" de aprendizagem profunda em larga escala, ou seja, encontrar uma regra teórica que possa realmente entender o comportamento dos grandes modelos de IA.

Ele também afirmou:

IA permitirá que todos entendam nosso universo matemático de maneiras que antes eram inimagináveis.

Link do artigo:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)