A OpenAI solicitou a marca registrada GPT-5, quando será lançada? Que novas habilidades isso trará?

Question

Fonte original: AGI Innovation Lab![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-61db342df5-dd1a6f-1c6801) Fonte da imagem: Gerada por Unbounded AI‌Em 1º de agosto, a OpenAI apresentou oficialmente um pedido de marca registrada para "GPT-5", que abrange o seguinte:* Software que gera artificialmente fala e texto humanos* Converta arquivos de dados de áudio em texto* Reconhecimento de voz e fala* Linguagem baseada em aprendizado de máquina e processamento de falaDe acordo com os documentos de pedido de marca registrada do GPT-5, a marca registrada GPT-5 cobre a função de IA para gerar fala e texto e também pode converter arquivos de áudio em texto, realizar reconhecimento de som e fala e usar tecnologia de aprendizado de máquina para processamento de linguagem e fala .Isso pode significar que o GPT-5 oferecerá suporte a recursos de voz, o que proporcionará aos usuários uma experiência de processamento de voz e texto mais avançada e eficiente e aprimorará ainda mais os recursos multimodais.## Quando o GPT-5 está chegando?Quando o GPT-4 for lançado em março de 2023, a OpenAI deverá lançar o modelo de próxima geração em dezembro de 2023. O co-fundador da Runway, Siqi Chen, afirmou anteriormente que me disseram que o GPT5 está programado para concluir o treinamento em dezembro deste ano, e a Openai espera que seja capaz de alcançar inteligência artificial geral (AGI). Isso significa que todos nós estaremos discutindo ferozmente se é realmente AGI.No entanto, quando questionado em um evento do MIT em abril se a OpenAI estava treinando GPT-5, o CEO da OpenAI, Sam Altman, disse "não o faremos e não o faremos por um tempo". Em uma entrevista em junho deste ano, o fundador e CEO da OpenAI, Sam Altman, disse que quando lhe perguntaram o que lançou o GPT-5, também estou curioso, não temos resposta, não teremos o GPT-5 em breve, devemos tornar a segurança um grande parte disso.Ainda assim, alguns acreditam que a OpenAI pode lançar o GPT-4.5, uma versão intermediária entre o GPT-4 e o GPT-5, como o GPT-3.5, até outubro de 2023. Diz-se que o GPT-4.5 eventualmente traz recursos multimodais, a capacidade de analisar imagens e texto. A OpenAI já anunciou e demonstrou os recursos multimodais do GPT-4 já em março de 2023, durante a transmissão ao vivo do desenvolvedor do GPT-4. Agora, a Microsoft lançou os recursos multimodais do GPT-4 no Bing Chat. Parece que a próxima grande atualização do GPT-4 está chegando.Além disso, a OpenAI atualmente tem muito trabalho a fazer no modelo GPT-4 antes de começar a trabalhar no GPT-5. Atualmente, o tempo de inferência do GPT-4 é muito longo e bastante caro para ser executado. O acesso à API GPT-4 ainda é difícil de obter. Além disso, a OpenAI abriu recentemente o acesso aos plug-ins ChatGPT e aos interpretadores de código, que ainda estão em versão beta. A navegação na Internet foi removida do GPT-4 porque exibe conteúdo de sites pagos.Embora o GPT-4 seja muito poderoso, acho que o OpenAI percebe que a eficiência computacional é um dos elementos-chave para executar o modelo de maneira sustentável. Adicione novos recursos e capacidades e você poderá lidar com infraestruturas maiores, garantindo que todos os pontos de verificação estejam funcionando de forma confiável. Portanto, em um palpite, o GPT-5 provavelmente será lançado em 2024 se assumirmos que não há obstáculos regulatórios de agências governamentais.## Previsões: recursos e funções do GPT-5**Reduzir alucinações**O tema quente na indústria é que GPT-5 realizará AGI (inteligência artificial). Entre outras coisas, o GPT-5 deve reduzir o tempo de inferência, melhorar a eficiência, reduzir as alucinações e muito mais. Vamos começar com as alucinações, uma das principais razões pelas quais a maioria dos usuários não confia muito nos modelos de IA.De acordo com a OpenAI, o GPT-4 pontua 40% a mais do que o GPT-3.5 na avaliação factual do design adversário interno em todas as nove categorias. GPT-4 agora tem 82% menos probabilidade de responder a conteúdo impreciso e não permitido. Ele chega muito perto da pontuação de 80% nos testes de precisão em todas as categorias. Este é um salto gigantesco contra a ilusão.Agora, espera-se que o OpenAI reduza as alucinações para menos de 10% no GPT-5, o que será enorme para tornar os modelos LLM confiáveis.**Modelo de Eficiência de Cálculo**Já sabemos que GPT-4 é caro para executar (US$ 0,03 por token de 1K) e leva mais tempo para inferir. E o modelo GPT-3.5-turbo mais antigo é 15 vezes mais barato que o GPT-4 (US$ 0,002 por token de 1K). De acordo com um relatório recente da SemiAnalysis, o GPT-4 não é um modelo denso, mas é baseado em uma arquitetura de "mistura de especialistas". Isso significa que o GPT-4 usa 16 modelos diferentes para diferentes tarefas, com 1,8 trilhão de parâmetros.Com uma infraestrutura tão grande, o custo de execução e manutenção do modelo GPT-4 torna-se muito caro.De fato, muitos novos modelos grandes começaram a buscar "pequenos e refinados", de modo que os modelos grandes tenham o mínimo de parâmetros possível, não mais.Na interpretação recente do modelo Google PaLM 2, os parâmetros do PaLM 2 são bastante pequenos, mas o desempenho é rápido.**Modelo IA multissensorial**Embora o GPT-4 tenha sido declarado um modelo de IA multimodal, ele lida apenas com dois tipos de dados, a saber, imagens e texto. Com o GPT-5, a OpenAI pode dar um passo gigantesco rumo à verdadeira multimodalidade. Ele também pode lidar com texto, áudio, imagens, vídeo, dados de profundidade e temperatura. Ele será capaz de interconectar fluxos de dados de diferentes modalidades para criar espaços integrados.**memória de longo prazo**Com o lançamento do GPT-4, o OpenAI traz um comprimento máximo de contexto de 32 mil tokens a um custo de US$ 0,06 por token de 1 mil. Vimos rapidamente uma mudança do token padrão de 4K para 32K em questão de meses. Recentemente, a Anthropic aumentou a janela de contexto de seu chatbot Claude AI de 9.000 tokens para 100.000 tokens. Espera-se que o GPT-5 possa trazer suporte à memória de longo prazo por meio de um maior comprimento de contexto.Isso ajuda a fazer com que os personagens e amigos da IA se lembrem de seus personagens e memórias nos próximos anos. Além disso, você também pode carregar livros e bibliotecas de documentos de texto em uma única janela contextual. Uma variedade de novos aplicativos de IA pode surgir graças ao suporte de memória de longo prazo, e o GPT-5 pode tornar isso possível.Quando você acha que o GPT-5 será lançado e quais inovações disruptivas ele trará?Referências: