Mais de meio ano se passou e a classificação do ChatGPT está quase no último lugar.

2023-09-08 06:02:49

Fonte: Titânio Media

Autor: Tecnologia Sanyan

Ontem, o autor acidentalmente roubou uma foto.

De acordo com a imagem, o GPT-4 da OpenAI ficou em último lugar entre os 11 modelos grandes (o número um é 0). Alguns internautas adicionaram as palavras “GPT4: Como posso processar minhas queixas?”

Isso não pode deixar de deixar as pessoas curiosas: no início deste ano, depois que o ChatGPT se popularizou, outras empresas começaram a propor o conceito de modelos grandes.

Faz apenas mais de meio ano e o GPT já está “no fundo”?

Portanto, o autor quer ver como está o ranking do GPT.

O tempo de teste é diferente, a equipe de teste é diferente, GPT-4 ocupa o décimo primeiro lugar

A julgar pelas informações exibidas na imagem do artigo anterior, esta classificação é da lista C.

C-List, o nome completo da C-Global Large Model Comprehensive Examination Test List, é um conjunto abrangente de avaliação de exames de modelo de língua chinesa construído em conjunto pela Universidade de Tsinghua, pela Universidade Jiao Tong de Xangai e pela Universidade de Edimburgo.

É relatado que o conjunto abrange quatro áreas principais: humanidades, ciências sociais, ciências e engenharia, e outras especialidades, incluindo 52 disciplinas, cobrindo vários campos do conhecimento, como cálculo e álgebra linear. Há um total de 13.948 questões de conhecimento e raciocínio chinês, com dificuldade dividida em quatro níveis de teste: ensino médio, graduação, pós-graduação e profissionalizante.

Então o autor verificou a última lista C.

A última classificação da lista C é consistente com a classificação mostrada na imagem anterior: entre os 11 principais modelos de grande porte, o GPT-4 ocupa o último lugar.

De acordo com a lista C, esses resultados representam testes de tiro zero (aprendizado com amostra zero) ou poucos tiros (aprendizado de poucos tiros), mas poucos tiros não são necessariamente melhores do que tiro zero.

C- disse que em seus testes foi descoberto que muitos modelos após o ajuste fino das instruções eram melhores sob disparo zero. Muitos dos modelos testados apresentam resultados de zero e poucos disparos, e a classificação mostra a configuração com a melhor pontuação média geral.

A lista C também indica que os nomes de modelos grandes com "*" indicam que os resultados do modelo foram testados pela equipe C, enquanto outros resultados foram obtidos por meio de envios de usuários.

Além disso, o autor também percebeu que o tempo de envio dos resultados dos testes para esses modelos grandes varia muito.

Os resultados do teste GPT-4 foram enviados em 15 de maio, enquanto Yuntianshu, que ficou em primeiro lugar, foi enviado em 31 de agosto; o Galaxy, em segundo lugar, foi enviado em 23 de agosto; e o YaYi, em terceiro lugar, foi enviado em 31 de agosto. para 4 de setembro. .

Além disso, entre os 16 principais modelos grandes, apenas o GPT-4 tem "*" adicionado ao seu nome e foi testado pela equipe C.

Portanto, o autor verificou novamente a lista C completa.

A última lista C inclui um total de 66 classificações de grandes modelos.

Dentre eles, o nome com “*”, ou seja, testado pela equipe C, são apenas 11, e o horário de envio da prova é 15 de maio.

Esses grandes modelos testados pela equipe C, o GPT-4 da OpenAI ficou em décimo primeiro lugar, o ChatGPT ficou em trigésimo sexto, enquanto o ChatGLM-6B de Tsinghua Zhipu AI ficou em sessenta e o MOSS de Fudan ficou em sexto, quatorze.

Embora esses rankings possam mostrar o rápido impulso de desenvolvimento dos grandes modelos nacionais, o autor acredita que, afinal, eles não são testados pela mesma equipe ao mesmo tempo, o que não é suficiente para comprovar plenamente quem é mais forte e quem é mais fraco entre esses grandes modelos.

É como uma turma de alunos em que cada um tem tempos de teste diferentes e responde a trabalhos diferentes. Como podemos confiar na pontuação de cada aluno para comparar?

O que dizem os grandes desenvolvedores de modelos? Muitos disseram que superou o ChatGPT em chinês e outras habilidades

Recentemente, o grande círculo de modelos está bastante animado.

Os produtos modelo em grande escala de 8 empresas, incluindo Baidu e Byte, foram aprovados nas "Medidas Provisórias para a Gestão de Serviços de Inteligência Artificial Gerativa" e podem ser lançados oficialmente para fornecer serviços ao público. Outras empresas lançaram sucessivamente seus próprios produtos de modelos grandes.

Então, como os desenvolvedores desses grandes modelos apresentam seus produtos?

Em 7 de julho, no fórum da Conferência Mundial de Inteligência Artificial de 2023 "Oportunidades e riscos para o desenvolvimento da indústria geral de inteligência artificial na era dos grandes modelos", Qiu Xipeng, professor da Escola de Ciência da Computação e Tecnologia da Universidade Fudan e chefe de o sistema MOSS, disse que o modelo de linguagem conversacional em grande escala da Fudan, MOSS, depois de ser lançado em fevereiro deste ano, tem iterado continuamente: "O MOSS mais recente foi capaz de superar o ChatGPT em capacidades chinesas."

No final de julho, NetEase Youdao lançou um grande modelo de tradução, o CEO da NetEase Youdao, Zhou Feng, declarou publicamente que em testes internos, na direção da tradução chinês-inglês, ultrapassou as capacidades de tradução do ChatGPT e ultrapassou o nível do Google Translate. **

No final de agosto, no Yabuli Forum Summer Summit de 2023, Liu Qingfeng, fundador e presidente da iFlytek, fez um discurso e disse: “**Os recursos de geração e conclusão de código do modelo iFlytek Spark ultrapassaram o ChatGPT e outros. alcançando rapidamente. **A lógica, os algoritmos, os sistemas de métodos e a preparação de dados para a capacidade de código atual estão prontos, e tudo o que é necessário é tempo e poder de computação.”

SenseTime afirmou em um comunicado de imprensa recente que em agosto deste ano, o novo modelo internlm-123b completou o treinamento e o número de parâmetros aumentou para 123 bilhões. **Nos 51 conjuntos de avaliação conhecidos no mundo, com um total de 300.000 perguntas, a pontuação geral do teste ocupa o segundo lugar no mundo, ultrapassando o gpt-3.5-turbo e o recém-lançado llama2-70b da meta e outros modelos. **

De acordo com Shangtang, **internlm-123 ficou em primeiro lugar em 12 avaliações principais. Entre eles, a pontuação agi no teste abrangente do conjunto de avaliação foi de 57,8, ultrapassando o gpt-4 para ficar em primeiro lugar; a pontuação de avaliação do **knowledge quiz commonsenseqa foi de 88,5, ficando em primeiro lugar; internlm-123b obteve pontuação nas cinco avaliações de leitura compreensão Todos estão no topo da lista.

Além disso, ficou em primeiro lugar nas cinco avaliações de raciocínio.

No início deste mês, Zuoyebang lançou oficialmente o modelo Galaxy desenvolvido por ele mesmo.

Zuoyebang disse que o modelo Galaxy alcançou resultados nos dois benchmarks oficiais de avaliação de modelos de linguagem grande, C- e CMMLU. Os dados mostram que Zuoyebang Galaxy Big Model ocupa o primeiro lugar em C- com uma pontuação média de 73,7 pontos; ao mesmo tempo, classifica-se na lista CMMLU de avaliações Five-shot e Zero-shot com pontuações médias de 74,03 pontos e 73,85 pontos, respectivamente. Primeiro, tornou-se o primeiro grande modelo educacional a ocupar o primeiro lugar na pontuação média nas duas listas oficiais mencionadas acima.

Ontem, Baichuan Intelligent anunciou o Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat de código aberto oficial e suas versões quantizadas de 4 bits.

Wang Xiaochuan, fundador e CEO da Baichuan Intelligent, disse que o modelo de bate-papo aprimorado, no campo chinês, no ambiente de perguntas e respostas ou no ambiente de resumo, seu desempenho real ultrapassou o modelo de código fechado como o ChatGPT- 3.5. **

Hoje, na Conferência Global de Ecologia Digital da Tencent de 2023, a Tencent lançou oficialmente o grande modelo Hunyuan. Jiang Jie, vice-presidente do Grupo Tencent, disse que a capacidade do idioma chinês do grande modelo **Tencent Hunyuan excedeu o GPT-3.5. **

Além das apresentações desses desenvolvedores, alguns meios de comunicação e equipes também avaliaram um modelo grande.

No início de agosto, a equipe de Shen Yang, professor e supervisor de doutorado da Escola de Jornalismo e Comunicação da Universidade Tsinghua, lançou o "Relatório Abrangente de Avaliação de Desempenho de Grandes Modelos de Linguagem". O relatório mostra que a pontuação abrangente de **Baidu Wenxinyiyan em 20 indicadores em três dimensões principais lidera o país e é melhor que o ChatGPT.Entre eles, a compreensão semântica chinesa tem uma classificação elevada e algumas habilidades chinesas são melhores que o GPT-4. **

Em meados de agosto, alguns meios de comunicação relataram que em 11 de agosto, o grande modelo MiLM-6B da Xiaomi apareceu nas listas de avaliação de modelos grandes C- e CMMLU. A partir de agora, o MiLM-6B ocupa o 10º lugar na lista C-geral, o 1º na mesma magnitude de parâmetro e o 1º nos grandes modelos chineses CMMLU.

Em 12 de agosto, a Universidade de Tianjin divulgou o “Relatório de Avaliação de Grandes Modelos”. O relatório mostra que o desempenho abrangente do **GPT-4 e do Baidu Wenxinyiyan está significativamente à frente de outros modelos, e suas pontuações não são muito diferentes e estão no mesmo nível. Wen Xinyiyan ultrapassou o ChatGPT na maioria das tarefas chinesas e gradualmente reduziu a diferença com o GPT-4. **

No final de agosto, alguns meios de comunicação informaram que o KwaiYii, um grande modelo de linguagem desenvolvido pela Kuaishou, havia iniciado testes internos. Nas últimas classificações do CMMLU voltadas para o chinês, o KwaiYii-13B, a versão 13B do KwaiYi, ficou em primeiro lugar tanto no cinco tiro quanto no tiro zero. É forte em humanidades, tópicos específicos chineses, etc., com uma pontuação média de mais de 61 pontos.

Pode-se perceber pelo conteúdo acima que embora esses grandes modelos afirmem ser os primeiros em um determinado ranking, ou superem o ChatGPT em um determinado aspecto, a maioria deles tem bom desempenho em algumas áreas específicas.

Além disso, algumas pontuações abrangentes excedem GPT-3,5 ou GPT-4, mas o teste GPT foi interrompido em maio.Quem pode garantir que o GPT não melhorou nos últimos três meses?

A situação da OpenAI

De acordo com um relatório do Grupo UBS de fevereiro, apenas dois meses após o lançamento do ChatGPT, seus usuários ativos mensais ultrapassaram 100 milhões no final de janeiro de 2023, tornando-o o aplicativo de consumo de crescimento mais rápido da história.

Mas o desenvolvimento do ChatGPT não é tão tranquilo.

Em julho deste ano, muitos usuários do GPT-4 reclamaram que, em comparação com a capacidade de raciocínio anterior, o desempenho do GPT-4 diminuiu.

Alguns usuários apontaram problemas no Twitter e no fórum online de desenvolvedores OpenAI, focando em lógica mais fraca, mais respostas incorretas, incapacidade de acompanhar as informações fornecidas, dificuldade em seguir instruções, esquecer de adicionar parênteses no código básico do software e lembrar apenas o dicas mais recentes e assim por diante.

Em agosto, outro relatório afirmou que a OpenAi pode estar em potencial crise financeira e falir até o final de 2024.

O relatório afirmou que o OpenAI custa aproximadamente US$ 700.000 por dia apenas para executar seu serviço de inteligência artificial ChatGPT. Atualmente, a empresa está tentando se tornar lucrativa com GPT-3.5 e GPT-4, mas ainda não conseguiu gerar receita suficiente para atingir o ponto de equilíbrio.

No entanto, a OpenAI também pode ter um novo ponto de viragem.

Recentemente, a OpenAI anunciou que realizará sua primeira conferência de desenvolvedores em novembro.

Embora a OpenAI tenha declarado que não lançará o GPT-5, a OpenAI disse que centenas de desenvolvedores de todo o mundo trabalharão com a equipe da OpenAI para visualizar "novas ferramentas" com antecedência e trocar ideias.

Isso pode significar que o ChatGPT fez novos progressos.

De acordo com o The Paper, em 30 de agosto, uma pessoa familiarizada com o assunto revelou que a OpenAI deverá alcançar mais de US$ 1 bilhão em receitas nos próximos 12 meses com a venda de software de IA e o poder de computação para impulsionar sua operação.

Hoje, outra reportagem da mídia afirmou que o Morgan Stanley lançará um chatbot generativo de inteligência artificial desenvolvido em conjunto com a OpenAI no final deste mês.

As pessoas que lidam com banqueiros do Morgan Stanley são ricas ou ricas. Se este próximo chatbot generativo de inteligência artificial puder trazer uma experiência diferente aos clientes do Morgan Stanley, poderá ser um grande ganho para a OpenAI.

A chegada da era da inteligência artificial tornou-se imparável. Quanto a quem é melhor, você não pode simplesmente dizer a si mesmo, você tem que permitir que os usuários avaliem. Acreditamos também que os grandes modelos domésticos certamente alcançarão o ChatGPT em termos de capacidades específicas e abrangentes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
1/3
1Altcoin Season Coming?
24k Popularidade
2Stablecoin Regulation Crackdown
9k Popularidade
3Gate June Transparency Report
22k Popularidade
4ETH Breaks Through $3,800
28k Popularidade
5Institutions Buying Bitcoin
17k Popularidade

Pino