Lan Zhenzhong, Professor da West Lake University: Várias cognições sobre grandes modelos

2023-09-19 07:47:02

Em 19 de setembro de 2023, a "Semana Internacional Blockchain de Xangai de 2023·A Nona Cúpula Global de Blockchain" foi inaugurada em Xangai. Lan Zhenzhong, fundador da West Lake Xinchen e professor da West Lake University, deu uma palestra ao vivo intitulada "Várias Cognições sobre Grandes Modelos".

Para obter mais informações, clique em: Destaques da "Semana Internacional Blockchain de Xangai 2023" (atualizado continuamente)"

A Golden Finance conduziu acompanhamento e relatórios no local de toda a reunião. A seguir está um resumo do conteúdo do discurso.

bom Dia a todos!

Hoje falarei principalmente sobre grandes modelos e inteligência artificial, e depois falarei sobre alguma integração com Web3 e o trabalho que está sendo feito.

Comecei a trabalhar com inteligência artificial em 2007, já se passaram mais de dez anos desde então. Da era da CPU à era da GPU, de modelos pequenos a modelos grandes, já faço isso há muito tempo, e também tenho fiz algum conteúdo relativamente representativo. Em 2019, o modelo grande que fiz quando estava no Google era o melhor modelo grande do mundo, muito melhor que o GPT2, então desprezamos a série GPT na época, mas agora eles estão indo muito bem.

Quando voltei para a China em 2020, fiz a primeira avaliação de grandes modelos chineses. Posso ser considerado um participante aprofundado em grandes modelos. Agora existe um laboratório e uma empresa fazendo pesquisas relacionadas a grandes modelos.

No passado, raramente olhava para a história do desenvolvimento de grandes modelos e raramente pensava profundamente sobre eles. Até que o ChatGPT se tornasse popular, as pessoas vinham me fazer várias perguntas. Deixe-me resumir as seguintes perguntas:

Primeiro, você deseja que o modelo fique maior ou menor?

Em segundo lugar, agora se fala muito sobre grandes modelos gerais.Então, os grandes modelos gerais têm oportunidades ou os grandes modelos da indústria têm oportunidades?

Terceiro, devo investir na NVIDIA ou em grandes empresas modelo e empresas de aplicativos?

Quarto, para o público em geral, como podem os grandes modelos mudar o meu trabalho? Como devo escolher uma carreira.

Estas questões permitem-nos rever a história passada.Apresento principalmente alguns dados passados para sua referência.

Em primeiro lugar, a primeira pergunta: os modelos grandes ficarão cada vez maiores? Olhando para trás na história, quando os computadores começaram a ser desenvolvidos em 1950, os modelos tornaram-se cada vez maiores. Pode-se dizer que o modelo cada vez maior é basicamente o primeiro fator para o modelo se tornar inteligente, então o modelo ficará cada vez maior.

Até 2018, descobrimos um método que pode fazer o modelo se expandir rapidamente. Agora ele está se expandindo muito rápido. De 2018 ao início de 2021, basicamente aumentou centenas de vezes a cada 18 meses. Agora a velocidade diminuiu, mas é também Expansão rápida.

(Conforme mostrado na figura) Esta imagem é uma imagem do GPT4. O eixo vertical fala sobre o nível de inteligência. Quanto maior o nível de inteligência, maior o nível. O eixo horizontal fala sobre o tamanho do modelo e a quantidade de treinamento . À medida que o modelo se torna maior e mais treinado, o nível de inteligência torna-se cada vez mais elevado. O ponto verde é GPT4, nesse ponto ainda existe um declive e ele ainda irá descer. Portanto, pode-se esperar que, ao aumentar o modelo, ele ainda possa se tornar mais inteligente. O ser humano sempre busca o limite e com certeza iremos ampliá-lo.

Mas o que todos estão preocupados agora é que o GPT4 já é um modelo de nível de trilhão. Os custos de inferência são muito caros e o treinamento também é muito caro. A amplificação é útil?

Olhando para outros dados, sabemos que esta preocupação não é necessária, porque o custo de formação e inferência está a diminuir acentuadamente. Quando o GPT3 foi treinado em 2020, o custo de uma única sessão de treinamento foi de US$ 4 milhões. Foi reduzido para US$ 400.000 em 2022 e a redução de custos é muito rápida.

Principalmente em vários aspectos:

Primeiro, o desempenho da GPU aumentou acentuadamente e os custos caíram, ultrapassando em muito a Lei de Moore. De 2016 a 2022, de acordo com a Lei de Moore, o desempenho da CPU aumentou 8 vezes e o da GPU aumentou 26 vezes. A melhoria é muito óbvia.

A segunda é a melhoria do software. Com a melhoria da eficiência do treinamento trazida pelo software, o custo anual de treinamento é reduzido em cerca de 47%.A combinação dos dois é um declínio terrível, um é hardware e o outro é software.

Terceiro, estamos espalhando o poder da computação em grande escala. Antes do lançamento do ChatGPT, o poder da computação global aumentava cerca de 20% a 40% a cada ano. Após o lançamento do ChatGPT, o aumento do poder da computação pode dobrar. Quando o poder de computação aumenta em grande escala e as GPUs são produzidas em massa, os custos operacionais também diminuem. Tomados em conjunto, o custo da formação e da inferência está a diminuir acentuadamente, pelo que podemos ver que caiu 10 vezes em dois anos.

Nos próximos anos, modelos de trilhões como o GPT4 se tornarão relativamente baratos e todos poderão usá-los.

Para resumir, prevejo que os modelos continuarão a ficar maiores e mais poderosos, os custos de treinamento e inferência continuarão a cair e as iterações serão rápidas.

(Conforme mostrado na imagem) Esta imagem é sobre o GPT1. Eu não tinha uma boa opinião sobre o GPT1 na época. Olhando para trás agora, cometi um grande erro. O GPT1 deu uma contribuição muito grande e transformou a inteligência artificial em inteligência artificial especializada. Transformação em inteligência artificial geral.

Costumava haver centenas de tarefas de processamento de linguagem natural e vários modelos foram projetados para cada tarefa, então havia muitos artigos. Mas depois que o GPT1 foi lançado, eu disse para você não usar vários modelos, usei um único modelo para lidar com a maioria das suas (tarefas).

Este último artigo foi escrito pelo meu colega do Google na época, que integrou várias tarefas em um mesmo modelo. Portanto, a principal contribuição desta onda é a universalidade. A universalidade não se reflete apenas no texto, mas também em imagens, sons e proteínas.Para vários dados, como sequências, contanto que você possa converter os dados em uma sequência, eles podem basicamente ser processados.

Cortar a imagem em vários pedaços e alongá-la é uma tarefa que agora pode ser realizada pelo modelo Transformer, que basicamente pode cobrir uma variedade de tarefas e é muito versátil.

Embora modelos grandes não possam lidar com muitas tarefas complexas agora, você pode fazê-lo, desde que o ajude um pouco e divida um pouco as tarefas. Embora todos sintam que o GPT4 é muito forte, a precisão de fazer 24 pontos diretamente é de 7,3%, mas se você dividir um pouco, pode ser melhorada para 74%.Muitas tarefas aparentemente complicadas, se os profissionais o ajudarem a dividi-las, agora Os modelos da série GPT ou modelos grandes em geral podem ajudá-lo a resolver muitas tarefas e obter automação.

Uma é que o modelo vai ficar maior, e a outra é que ele é versátil e pode resolver muitos personagens complexos com um pouco de desmontagem, por isso é muito prático. Muitos foram implementados com sucesso no exterior, por exemplo, Duolingo é uma empresa de Pittsburgh, cuja receita aumentou 42% no primeiro trimestre de 2023 devido à adição do aplicativo ChatGPT.

Muitos programadores agora usam o Copilot.A receita da OpenAI este ano é estimada em 1,2 bilhão de dólares americanos, o que é uma escala de receita muito difícil para uma empresa iniciante.

A diferença entre esta onda de inteligência artificial e a anterior é que ela substitui os trabalhadores mentais. A imagem à direita mostra o nível de inteligência (automação) em vários setores antes desta onda de inteligência artificial geral. A parte inferior são aqueles sem diploma , seguidos pelos de mestrado a doutorado, o grau de substituibilidade torna-se cada vez menor à medida que se sobe. As coisas são diferentes agora: após o surgimento da inteligência artificial geral, os trabalhadores mentais podem ser facilmente substituídos.

Resumindo, a implementação de grandes modelos será mais rápida do que imaginávamos e, claro, mais lenta do que muitos trabalhadores financeiros imaginaram, porque a reacção do mercado bolsista é sempre mais rápida do que a tecnologia, pelo menos mais rápida do que imaginávamos, e pode capacitar Todas as esferas da vida. É difícil para você desmontar cada tarefa. Se uma grande empresa modelo se aprofundar no setor, haverá grandes oportunidades.

Hoje em dia, a maioria das pessoas presta atenção à inteligência do modelo, e menos atenção é dada à "inteligência emocional" do modelo e ao grau de interação com as pessoas. Por exemplo, fiz uma pergunta que meu amante faria, e ChatGPT me deu esta resposta. Existe um método para esta resposta, mas não há Emoções parecem indicar que nossa interação com o modelo é fria e falta atenção aos usuários. Isso é um reflexo do desenvolvimento inicial da indústria.

Você pode comparar mecanismos de pesquisa. Quando eles foram lançados, a personalização era rara. Mas agora, todo mundo usa o Baidu e o Google de maneira diferente, porque muitas informações serão personalizadas para tornar as pesquisas mais precisas, mas a maioria dos modelos ainda não pode fazer isso.

Algumas pessoas também começaram a fazer isso, como uma empresa chamada Character.ai, que também foi fundada pelo meu colega do Google, que adicionou personalização ao modelo, o que pode melhorar significativamente o tempo de interação entre o modelo e as pessoas. Dados de maio: o tempo médio de interação da OpenAI é de 4 minutos, e o tempo médio de interação desta empresa é de 28 minutos, o que é várias vezes o tempo de interação. A página fica assim, o que equivale a dividir o grande modelo em vários Capitais e Agentes (agentes) para conseguir um direcionamento personalizado, mais emocional e com as pessoas dispostas a interagir com ele. Com o desenvolvimento de grandes modelos agora, haverá um grande avanço na interação humano-computador.

Nossa empresa e laboratório estão pesquisando principalmente grandes modelos gerais com alto QI e alto EQ, principalmente grandes modelos multimodais. No passado, para melhorar a inteligência emocional dos modelos, foram desenvolvidas uma série de capacidades para melhorar a memória, a personalização e a percepção emocional.

O modelo foi lançado relativamente cedo, porque há muito tempo que trabalho em um modelo geral grande no Google. Antes do lançamento do ChatGPT em meados de 2020, tínhamos nosso próprio modelo geral grande. Naquela época, a capacidade de escrita do o modelo estava no mesmo nível de 3,5 e era uma profissão substancial.

Está online há mais de um ano e tem mais de 200 usuários do lado C e mais de 100 usuários do lado B, incluindo Starbucks e Alipay.

Uma das aplicações mais típicas é a cooperação com Tom Cat. Tom Cat é um produto complementar com 400 milhões de usuários ativos mensais em todo o mundo. No passado, ele copiava principalmente a fala das pessoas e copiava as palavras por meio da mudança de voz. Adicionamos recursos de interação multimodal e recursos de diálogo.

Voltemos ao Web3 relacionado à conferência. Este é o meu entendimento aproximado. Acho que o modelo grande e o Web3 correspondem às relações de produtividade e produção, respectivamente. O modelo grande melhora muito o nível de produtividade, mas se quiser ter um bom desempenho, deve têm produção correspondente. relacionamento correspondente. Resumi que existem vários problemas na implementação de modelos grandes:

Primeiro, o custo do treinamento é muito alto. Não há incentivo para empresas iniciantes abrirem o código de seus modelos. Modelos que custam milhões de dólares para treinar são de código aberto, mas não têm nada a ver comigo. É difícil para que eles abram o código-fonte. Mas o código aberto é muito importante para os modelos. Muitos dos modelos atuais são caixas pretas. Muitas instituições de pesquisa não podem se dar ao luxo de treinar seus próprios modelos. Se todos estão treinando, então todos estão reinventando a roda. Portanto, o código aberto é muito importante, mas necessita de medidas correspondentes.

Em segundo lugar, o custo do raciocínio é alto. O custo atual do raciocínio de uma única conversa no GPT4 é de 60 centavos, o que é muito mais caro do que o meu discurso. O custo do raciocínio é muito alto e é muito difícil de implementar. O GPT4 pode ser usado em muitos lugares, mas o custo é inacessível.

O terceiro é a sensibilidade dos dados. Os dados da Samsung foram vazados pela OpenAI antes e causaram muito alvoroço. Os dados que carregamos para o modelo grande agora são dados confidenciais. Muitas empresas não estão dispostas a carregar seus próprios dados. Como lidar com esses problemas? Espero que o Web3 possa nos ajudar a resolver esses problemas.

Acabei de ouvir o professor Cao dizer que ainda existem muitas dificuldades, mas esperamos que por meio da pesquisa possamos ajudar a resolver esses problemas. Por exemplo, temos uma rede pública e todos podem fazer upload de modelos de código aberto. Mesmo se você abrir o código do modelo e carregá-los na cadeia pública, haverá um mecanismo de incentivo correspondente.Por exemplo, se os usuários fizerem upload de dados, se pudermos treinar, haverá incentivos correspondentes.

Há também problemas de computação. Agora todo mundo tem uma placa gráfica muito poderosa em seus celulares. Se o celular de todos puder contribuir para a inferência, poderemos reduzir muito o custo da inferência. Esperamos que nossos ideais possam ser verdadeiramente realizados através do poder da Web3. Esperamos que grandes modelos possam capacitar todas as esferas da vida, acompanhar a todos e realmente se tornarem assistentes ou companheiros de todos.

obrigado a todos!

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Simple Earn Annual Rate 24.4%
22k Popularidade
2Gate Launchpad List IKA
30k Popularidade
3ETH Trading Volume Surges
23k Popularidade
4Gate ETH 10th Anniversary Celebration
21k Popularidade
5Trump’s AI Strategy
18k Popularidade

Pino