Os assentos estavam lotados e os corredores cheios de gente.
Você pode até pensar que foi um encontro de celebridades.
Mas esta é na verdade uma das mesas redondas da conferência GenAI no Vale do Silício.
Foi organizado no "palco auxiliar" ao meio-dia, quando as pessoas estão com mais sono. Havia muitos CEOs e fundadores de empresas estrelas do Vale do Silício sentados no palco em outra grande sala de conferências, e esta mesa redonda era "apenas" alguns pesquisadores., mas as pessoas ainda continuavam entrando na pequena sala.
O alvo eram três pesquisadores chineses. No passado, no Vale do Silício, esse tipo de cena sempre acontecia quando apareciam “executivos chineses com os mais altos cargos nas empresas do Vale do Silício”, mas desta vez as pessoas estavam perseguindo três jovens.
Xinyun Chen, Chunting Zhou e Jason Wei.
**Jovens pesquisadores chineses em três das mais importantes empresas de IA do Vale do Silício. **
Esses três nomes com certeza serão familiares para quem acompanha de perto a tendência dos modelos grandes.
Xinyun Chen é pesquisador sênior das equipes de inferência Google Brain e DeepMind. Seus interesses de pesquisa são síntese de programas neurais e aprendizado de máquina adversário. Ela recebeu um doutorado em ciência da computação pela Universidade da Califórnia, Berkeley, e um bacharelado em ciência da computação pela classe ACM da Universidade Jiao Tong de Xangai.
Ela participou de artigos que incluíam permitir que o LLM criasse suas próprias ferramentas e ensinar o LLM a depurar seu próprio código, etc. Todos esses artigos são muito importantes e críticos no campo da geração de código de IA. Ela também foi exageradamente descrita por alguns meios de comunicação como membro da "Equipe Chinesa do Google Deepmind".
Chunting Zhou é um cientista pesquisador da Meta AI. Em maio de 2022, ela recebeu seu doutorado pelo Institute of Language Technology da Carnegie Mellon University. Seus principais interesses de pesquisa atuais residem na interseção do processamento de linguagem natural e aprendizado de máquina, bem como em novos métodos de alinhamento. O artigo que ela liderou, que tentou usar menos amostras e mais refinadas para treinar modelos grandes, foi muito elogiado por Yann Lecun e recomendado no artigo.O artigo forneceu à indústria ideias mais recentes, além de métodos convencionais como o RLHF.
O último é Jason Wei, da OpenAI, um pesquisador famoso altamente respeitado pelas comunidades de IA nacionais e estrangeiras. O famoso desenvolvedor COT (Chain of Thoughts). Depois de se formar em 2020, tornou-se pesquisador sênior do Google Brain e, durante sua gestão, propôs o conceito de cadeias de pensamento, que também é uma das chaves para o surgimento do LLM. Em fevereiro de 2023, ingressou na OpenAI e se juntou à equipe ChatGPT.
As pessoas vêm para essas empresas, mas mais para suas pesquisas.
Muitas vezes neste fórum, eles são como estudantes. Você parece estar assistindo a uma discussão universitária. São mentes inteligentes, lógica de resposta rápida, um pouco nervosos, mas também cheios de palavras espirituosas.
"Por que você tem que pensar que alucinações são uma coisa ruim?"
“Mas Trump tem alucinações todos os dias.”
Houve risadas.
Esta é uma conversa rara. A seguir está a transcrição. O pessoal da Silicon Star também participou e fez perguntas.
Pergunta: Vamos discutir um assunto muito importante no LLM, que é a alucinação. O conceito de alucinação foi proposto já quando os parâmetros do modelo eram muito poucos e o tamanho ainda era muito pequeno.Mas agora, à medida que os modelos se tornam cada vez maiores, como mudou o problema da alucinação?
Chunting: Posso falar primeiro. Fiz um projeto há três anos sobre alucinações. O problema das alucinações que enfrentávamos naquela época era muito diferente do que enfrentamos agora. Naquela época, fazíamos modelos muito pequenos e discutíamos as alucinações em campos específicos, como tradução ou resumo de documentos e outras funções. Mas agora está claro que o problema é muito maior.
Acho que há muitas razões pelas quais modelos grandes ainda produzem alucinações. Em primeiro lugar, em termos de dados de treino, porque os humanos têm alucinações, também existem problemas com os dados. A segunda razão é que, devido à forma como o modelo é treinado, ele não pode responder a perguntas em tempo real e responderá a perguntas erradas. Assim como deficiências de raciocínio e outras habilidades podem levar a esse problema.
Xinyun:** Na verdade, começarei esta resposta com outra pergunta. Por que os humanos pensam que as alucinações são uma coisa ruim. **
Tenho uma história em que meu colega fez uma pergunta à modelo, que também foi retirada de alguns bancos de questões de avaliação: O que vai acontecer quando a princesa beijar o sapo. A resposta do modelo é que nada acontece. **
Em muitas respostas de avaliação de modelo, a resposta “se tornará um príncipe” é a resposta correta, e a resposta que nada acontecerá será marcada como errada. **Mas para mim, na verdade acho que esta é uma resposta melhor, e muitos humanos interessantes responderiam a isso. **
A razão pela qual as pessoas pensam que isto é uma ilusão é porque não pensaram sobre quando a IA não deveria ter alucinações e quando a IA deveria ter alucinações.
Por exemplo, algum trabalho criativo pode exigir isso, e a imaginação é muito importante. Agora estamos constantemente aumentando o modelo, mas um problema aqui é que não importa quão grande ele seja, ele não consegue se lembrar de tudo com precisão. Na verdade, os humanos têm o mesmo problema. Acho que uma coisa que pode ser feita é fornecer algumas ferramentas aprimoradas para auxiliar o modelo, como pesquisa, cálculo, ferramentas de programação, etc. Os humanos podem resolver rapidamente o problema das alucinações com a ajuda dessas ferramentas, mas os modelos ainda não parecem muito bons. Esta também é uma questão que eu mesmo gostaria de estudar.
Jason: **Se você me perguntar, Trump tem alucinações todos os dias. (Risos) Você diz sim ou não. **
Mas penso que outro problema aqui é que as expectativas das pessoas em relação aos modelos linguísticos estão a mudar. **Em 2016, quando um RNN gera uma URL, sua expectativa é que ela esteja errada e não confiável. Mas hoje, acho que esperaríamos que o modelo estivesse correto sobre muitas coisas, então também pensaríamos que as alucinações são mais perigosas. Portanto, este é realmente um contexto muito importante. **
(Potenciais direções de pesquisa listadas por Jason Wei)
Pergunte: A próxima pergunta é para Xinyun. Um tópico muito importante na indústria agora é o autoaperfeiçoamento e a autodepuração do modelo, por exemplo. Você pode compartilhar sua pesquisa?
Xinyun: A inspiração para a autodepuração de modelos, na verdade, vem de como os humanos programam. Sabemos que se a programação humana terminar uma vez, definitivamente haverá problemas e será necessária depuração. Para programadores muito poderosos, a depuração também é uma habilidade muito importante. Nosso objetivo é que, sem quaisquer instruções externas e sem humanos lhe dizendo o que está errado, o modelo possa olhar o código que gerou por si mesmo, ver os resultados da operação e então determinar o que deu errado. Se houver um problema, vá e depure-o.
E por que a geração de código será ajudada pela autodepuração, acho que há dois motivos. Primeiro, a geração de código é basicamente baseada no treinamento de código-fonte aberto, podendo gerar código que se ajuste à direção geral desejada, mas o código pode ser muito longo, conter muitos erros e não poder ser executado. Mas não precisamos começar a programar do zero em vez de usar a base de código existente, porque não importa quantas vezes você comece do zero, o problema é inevitável, por isso é necessário gerar código nos recursos de código existentes e depurar se tornou importante. **Em segundo lugar, o processo de depuração continua a receber algum feedback externo, o que é muito útil para melhorar a compreensão do modelo.
P: Uma pergunta complementar é: se você deixar o modelo sozinho e deixá-lo melhorar, não haverá problemas?
Chunting: Certa vez, fizemos um experimento estranho. Como resultado, o agente excluiu o ambiente de desenvolvimento python após executar o código. Se esse agente entrar no mundo real, poderá ter um impacto negativo. Isso é algo que precisamos considerar ao desenvolver agentes. Também descobri que quanto menor o modelo básico, menor a capacidade, e é difícil melhorar e refletir sobre si mesmo. Talvez possamos ensinar o modelo a melhorar, permitindo que ele veja mais “erros” durante o processo de alinhamento.
P: E Jason, como você se sai e o que você acha sobre a avaliação de modelos?
Jason: Minha opinião pessoal é que avaliar modelos é cada vez mais desafiador, especialmente sob o novo paradigma. Há muitas razões por trás disso. Uma delas é que os modelos de linguagem são agora usados em inúmeras tarefas e você nem sabe o escopo de suas capacidades. A segunda razão é que se você olhar para a história da IA, estamos resolvendo principalmente problemas tradicionais e clássicos.Os objetivos são de muito curto prazo e o texto é muito curto. Mas agora o texto da solução é mais longo e até os humanos demoram muito para julgar. Talvez o terceiro desafio seja que, para muitas coisas, o chamado comportamento correto não está claramente definido. **
Acredito que há algumas coisas que podemos fazer para melhorar as capacidades de avaliação. A primeira e mais óbvia é avaliar de uma forma mais ampla: ao encontrar alguns comportamentos prejudiciais, se eles podem ser divididos mais especificamente em tarefas menores para avaliação. Outra questão é se mais métodos de avaliação podem ser fornecidos para tarefas específicas.Talvez os humanos possam dar alguns, e então a IA também possa dar alguns.
P: O que você acha de usar IA para avaliar a rota da IA?
Jason: Parece ótimo. Acho que uma das tendências que estou observando ultimamente é se os modelos usados para avaliar modelos podem ter melhor desempenho. Por exemplo, a ideia de treinamento constitucional em IA, mesmo que o desempenho não seja perfeito agora, é muito provável que após a próxima geração de GPT, esses modelos tenham um desempenho melhor que os humanos.
**Silicon Star: Todos vocês são pesquisadores muito jovens. Gostaria de saber o que vocês, como pesquisadores empresariais, pensam sobre a grave incompatibilidade entre GPU e poder de computação entre empresas e academia. **
Jason: Se você trabalha em algum ambiente restrito, isso pode sim ter um impacto negativo, mas acho que ainda há espaço para muito trabalho, como a parte do algoritmo e pesquisas que podem não exigir muito de GPUs … Nunca faltam tópicos.
Chunting: Também sinto que há muito espaço e lugares que vale a pena explorar. Por exemplo, pesquisas sobre métodos de alinhamento podem, na verdade, ser conduzidas com recursos limitados**. E talvez na Bay Area haja mais oportunidades para pessoas acadêmicas.
Xinyun: Em geral, existem duas direções gerais para a pesquisa LLM: uma é melhorar o desempenho dos resultados e a outra é compreender o modelo. Vemos que muitos bons frameworks, benchmarks, etc., bem como alguns bons algoritmos vêm da academia.
Por exemplo, quando terminei o meu doutoramento, o meu orientador deu-me uma sugestão - **Os investigadores de IA devem pensar na investigação na dimensão temporal de muitos anos no futuro, ou seja, não apenas considerar melhorias em algumas coisas actuais ., mas um conceito tecnológico que pode trazer mudanças radicais no futuro. **
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Quais são os pesquisadores chineses populares na OpenAI, Google e Meta thinking | Transcrição da conversa
Fonte original: Silicon Star People
Os assentos estavam lotados e os corredores cheios de gente.
Você pode até pensar que foi um encontro de celebridades.
Mas esta é na verdade uma das mesas redondas da conferência GenAI no Vale do Silício.
Foi organizado no "palco auxiliar" ao meio-dia, quando as pessoas estão com mais sono. Havia muitos CEOs e fundadores de empresas estrelas do Vale do Silício sentados no palco em outra grande sala de conferências, e esta mesa redonda era "apenas" alguns pesquisadores., mas as pessoas ainda continuavam entrando na pequena sala.
O alvo eram três pesquisadores chineses. No passado, no Vale do Silício, esse tipo de cena sempre acontecia quando apareciam “executivos chineses com os mais altos cargos nas empresas do Vale do Silício”, mas desta vez as pessoas estavam perseguindo três jovens.
Xinyun Chen, Chunting Zhou e Jason Wei.
Esses três nomes com certeza serão familiares para quem acompanha de perto a tendência dos modelos grandes.
Xinyun Chen é pesquisador sênior das equipes de inferência Google Brain e DeepMind. Seus interesses de pesquisa são síntese de programas neurais e aprendizado de máquina adversário. Ela recebeu um doutorado em ciência da computação pela Universidade da Califórnia, Berkeley, e um bacharelado em ciência da computação pela classe ACM da Universidade Jiao Tong de Xangai.
Ela participou de artigos que incluíam permitir que o LLM criasse suas próprias ferramentas e ensinar o LLM a depurar seu próprio código, etc. Todos esses artigos são muito importantes e críticos no campo da geração de código de IA. Ela também foi exageradamente descrita por alguns meios de comunicação como membro da "Equipe Chinesa do Google Deepmind".
Chunting Zhou é um cientista pesquisador da Meta AI. Em maio de 2022, ela recebeu seu doutorado pelo Institute of Language Technology da Carnegie Mellon University. Seus principais interesses de pesquisa atuais residem na interseção do processamento de linguagem natural e aprendizado de máquina, bem como em novos métodos de alinhamento. O artigo que ela liderou, que tentou usar menos amostras e mais refinadas para treinar modelos grandes, foi muito elogiado por Yann Lecun e recomendado no artigo.O artigo forneceu à indústria ideias mais recentes, além de métodos convencionais como o RLHF.
O último é Jason Wei, da OpenAI, um pesquisador famoso altamente respeitado pelas comunidades de IA nacionais e estrangeiras. O famoso desenvolvedor COT (Chain of Thoughts). Depois de se formar em 2020, tornou-se pesquisador sênior do Google Brain e, durante sua gestão, propôs o conceito de cadeias de pensamento, que também é uma das chaves para o surgimento do LLM. Em fevereiro de 2023, ingressou na OpenAI e se juntou à equipe ChatGPT.
As pessoas vêm para essas empresas, mas mais para suas pesquisas.
Muitas vezes neste fórum, eles são como estudantes. Você parece estar assistindo a uma discussão universitária. São mentes inteligentes, lógica de resposta rápida, um pouco nervosos, mas também cheios de palavras espirituosas.
"Por que você tem que pensar que alucinações são uma coisa ruim?"
“Mas Trump tem alucinações todos os dias.”
Houve risadas.
Esta é uma conversa rara. A seguir está a transcrição. O pessoal da Silicon Star também participou e fez perguntas.
Pergunta: Vamos discutir um assunto muito importante no LLM, que é a alucinação. O conceito de alucinação foi proposto já quando os parâmetros do modelo eram muito poucos e o tamanho ainda era muito pequeno.Mas agora, à medida que os modelos se tornam cada vez maiores, como mudou o problema da alucinação?
Chunting: Posso falar primeiro. Fiz um projeto há três anos sobre alucinações. O problema das alucinações que enfrentávamos naquela época era muito diferente do que enfrentamos agora. Naquela época, fazíamos modelos muito pequenos e discutíamos as alucinações em campos específicos, como tradução ou resumo de documentos e outras funções. Mas agora está claro que o problema é muito maior.
Acho que há muitas razões pelas quais modelos grandes ainda produzem alucinações. Em primeiro lugar, em termos de dados de treino, porque os humanos têm alucinações, também existem problemas com os dados. A segunda razão é que, devido à forma como o modelo é treinado, ele não pode responder a perguntas em tempo real e responderá a perguntas erradas. Assim como deficiências de raciocínio e outras habilidades podem levar a esse problema.
Xinyun:** Na verdade, começarei esta resposta com outra pergunta. Por que os humanos pensam que as alucinações são uma coisa ruim. **
Tenho uma história em que meu colega fez uma pergunta à modelo, que também foi retirada de alguns bancos de questões de avaliação: O que vai acontecer quando a princesa beijar o sapo. A resposta do modelo é que nada acontece. **
Em muitas respostas de avaliação de modelo, a resposta “se tornará um príncipe” é a resposta correta, e a resposta que nada acontecerá será marcada como errada. **Mas para mim, na verdade acho que esta é uma resposta melhor, e muitos humanos interessantes responderiam a isso. **
A razão pela qual as pessoas pensam que isto é uma ilusão é porque não pensaram sobre quando a IA não deveria ter alucinações e quando a IA deveria ter alucinações.
Por exemplo, algum trabalho criativo pode exigir isso, e a imaginação é muito importante. Agora estamos constantemente aumentando o modelo, mas um problema aqui é que não importa quão grande ele seja, ele não consegue se lembrar de tudo com precisão. Na verdade, os humanos têm o mesmo problema. Acho que uma coisa que pode ser feita é fornecer algumas ferramentas aprimoradas para auxiliar o modelo, como pesquisa, cálculo, ferramentas de programação, etc. Os humanos podem resolver rapidamente o problema das alucinações com a ajuda dessas ferramentas, mas os modelos ainda não parecem muito bons. Esta também é uma questão que eu mesmo gostaria de estudar.
Jason: **Se você me perguntar, Trump tem alucinações todos os dias. (Risos) Você diz sim ou não. **
Mas penso que outro problema aqui é que as expectativas das pessoas em relação aos modelos linguísticos estão a mudar. **Em 2016, quando um RNN gera uma URL, sua expectativa é que ela esteja errada e não confiável. Mas hoje, acho que esperaríamos que o modelo estivesse correto sobre muitas coisas, então também pensaríamos que as alucinações são mais perigosas. Portanto, este é realmente um contexto muito importante. **
Pergunte: A próxima pergunta é para Xinyun. Um tópico muito importante na indústria agora é o autoaperfeiçoamento e a autodepuração do modelo, por exemplo. Você pode compartilhar sua pesquisa?
Xinyun: A inspiração para a autodepuração de modelos, na verdade, vem de como os humanos programam. Sabemos que se a programação humana terminar uma vez, definitivamente haverá problemas e será necessária depuração. Para programadores muito poderosos, a depuração também é uma habilidade muito importante. Nosso objetivo é que, sem quaisquer instruções externas e sem humanos lhe dizendo o que está errado, o modelo possa olhar o código que gerou por si mesmo, ver os resultados da operação e então determinar o que deu errado. Se houver um problema, vá e depure-o.
E por que a geração de código será ajudada pela autodepuração, acho que há dois motivos. Primeiro, a geração de código é basicamente baseada no treinamento de código-fonte aberto, podendo gerar código que se ajuste à direção geral desejada, mas o código pode ser muito longo, conter muitos erros e não poder ser executado. Mas não precisamos começar a programar do zero em vez de usar a base de código existente, porque não importa quantas vezes você comece do zero, o problema é inevitável, por isso é necessário gerar código nos recursos de código existentes e depurar se tornou importante. **Em segundo lugar, o processo de depuração continua a receber algum feedback externo, o que é muito útil para melhorar a compreensão do modelo.
P: Uma pergunta complementar é: se você deixar o modelo sozinho e deixá-lo melhorar, não haverá problemas?
Chunting: Certa vez, fizemos um experimento estranho. Como resultado, o agente excluiu o ambiente de desenvolvimento python após executar o código. Se esse agente entrar no mundo real, poderá ter um impacto negativo. Isso é algo que precisamos considerar ao desenvolver agentes. Também descobri que quanto menor o modelo básico, menor a capacidade, e é difícil melhorar e refletir sobre si mesmo. Talvez possamos ensinar o modelo a melhorar, permitindo que ele veja mais “erros” durante o processo de alinhamento.
P: E Jason, como você se sai e o que você acha sobre a avaliação de modelos?
Jason: Minha opinião pessoal é que avaliar modelos é cada vez mais desafiador, especialmente sob o novo paradigma. Há muitas razões por trás disso. Uma delas é que os modelos de linguagem são agora usados em inúmeras tarefas e você nem sabe o escopo de suas capacidades. A segunda razão é que se você olhar para a história da IA, estamos resolvendo principalmente problemas tradicionais e clássicos.Os objetivos são de muito curto prazo e o texto é muito curto. Mas agora o texto da solução é mais longo e até os humanos demoram muito para julgar. Talvez o terceiro desafio seja que, para muitas coisas, o chamado comportamento correto não está claramente definido. **
Acredito que há algumas coisas que podemos fazer para melhorar as capacidades de avaliação. A primeira e mais óbvia é avaliar de uma forma mais ampla: ao encontrar alguns comportamentos prejudiciais, se eles podem ser divididos mais especificamente em tarefas menores para avaliação. Outra questão é se mais métodos de avaliação podem ser fornecidos para tarefas específicas.Talvez os humanos possam dar alguns, e então a IA também possa dar alguns.
P: O que você acha de usar IA para avaliar a rota da IA?
Jason: Parece ótimo. Acho que uma das tendências que estou observando ultimamente é se os modelos usados para avaliar modelos podem ter melhor desempenho. Por exemplo, a ideia de treinamento constitucional em IA, mesmo que o desempenho não seja perfeito agora, é muito provável que após a próxima geração de GPT, esses modelos tenham um desempenho melhor que os humanos.
**Silicon Star: Todos vocês são pesquisadores muito jovens. Gostaria de saber o que vocês, como pesquisadores empresariais, pensam sobre a grave incompatibilidade entre GPU e poder de computação entre empresas e academia. **
Jason: Se você trabalha em algum ambiente restrito, isso pode sim ter um impacto negativo, mas acho que ainda há espaço para muito trabalho, como a parte do algoritmo e pesquisas que podem não exigir muito de GPUs … Nunca faltam tópicos.
Chunting: Também sinto que há muito espaço e lugares que vale a pena explorar. Por exemplo, pesquisas sobre métodos de alinhamento podem, na verdade, ser conduzidas com recursos limitados**. E talvez na Bay Area haja mais oportunidades para pessoas acadêmicas.
Xinyun: Em geral, existem duas direções gerais para a pesquisa LLM: uma é melhorar o desempenho dos resultados e a outra é compreender o modelo. Vemos que muitos bons frameworks, benchmarks, etc., bem como alguns bons algoritmos vêm da academia.
Por exemplo, quando terminei o meu doutoramento, o meu orientador deu-me uma sugestão - **Os investigadores de IA devem pensar na investigação na dimensão temporal de muitos anos no futuro, ou seja, não apenas considerar melhorias em algumas coisas actuais ., mas um conceito tecnológico que pode trazer mudanças radicais no futuro. **