ChatGPT pode ajudar as pessoas a reparar bicicletas olhando para fotos

2023-10-31 07:57:53

Fonte: Fruit Shell

ChatGPT4 já é forte, e agora, com outra atualização, eles estão provando que podem ser ainda mais fortes.

Em 25 de setembro, a OpenAI anunciou que o ChatGPT adicionará funções multimodais - o ChatGPT agora pode não apenas diálogos de texto, mas também ver, ouvir e falar. Diz-se que este recurso estará disponível para usuários Plus e usuários corporativos dentro de duas semanas, e estará disponível para todos os usuários gratuitamente no futuro (embora eu tenha um black face e não esperei por uma atualização).

O ChatGPT, que pode ser visto e falado, equivale a equipar um cérebro já poderoso com olhos e ouvidos e, de acordo com a demonstração da OpenAI, a função multimodal pode expandir o uso do ChatGPT para uma amplitude sem precedentes.

01 Visão do ChatGPT

Após a atualização, o ChatGPT pode ler imagens.

Basta tirar uma foto e dar-lhe uma foto e pode ajudá-lo a consertar seu micro-ondas, consertar sua bicicleta, folhear receitas e até mesmo analisar declarações comerciais complexas. A OpenAI diz que, se você tiver uma tela sensível ao toque, também poderá circular as partes da imagem nas quais deseja que ela se concentre.

No vídeo de demonstração, o usuário deu ao ChatGPT uma foto da bicicleta e perguntou como ajustar a altura do selim.

A GPT disse que era necessário encontrar uma alavanca de ajuste de altura sob o banco, mas este carro não tinha uma alavanca de ajuste, apenas um parafuso de ajuste, e depois que o usuário circulou o parafuso na foto, a GPT imediatamente atualizou o uso do parafuso.

Depois disso, o usuário também carregou a caixa de ferramentas e o manual da bicicleta, e a GPT deu um nome detalhado da ferramenta, sua localização e como usá-la.

Não pode consertar bicicletas, não há problema, basta perguntar ChatGPT

Em comparação com a pesquisa geral de reconhecimento de imagem, o ChatGPT pode processar imagens e textos ao mesmo tempo, e também pode reconhecer várias imagens, o efeito é como a orientação de conexão de vídeo de um mestre de reparo de carros.

Outro usuário enviou uma foto da pizza para o ChatGPT e perguntou se a pizza estava assada, e o ChatGPT julgou que a pizza deveria ser comestível através das bordas de pizza crocante dourada e queijo marrom derretido na foto, e então deu um guia de inspeção infalível - tire a pizza e dê uma olhada, se a base da pizza já está crocante e a superfície está quente, então a pizza é realmente comestível.

O efeito é quase como um guia de vídeo de um chef italiano

Claro, você também pode usar esse recurso para trapacear no jogo.

Onde está Willy? Provavelmente o jogo de imagem mais conhecido no mundo de língua inglesa, Willy está vestido com roupas listradas vermelhas e brancas, um chapéu pompom e óculos de aro preto, escondido em um mar de pessoas, e encontrar Willy de todos os tipos de ambientes confusos é uma boa memória de infância para muitas pessoas.

Quando você era criança, você pode ter visto esse pequeno homem magro que estava com pressa de morrer

Mas o ChatGPT pode arruinar o jogo em um segundo. Não só identifica instantaneamente Willy, mas também lhe diz que Willy está do lado direito da praia, no meio da praia, misturando-se com um grupo de pessoas com guarda-sóis azuis.

Não só isso, mas também finge dizer que encontrar Willy em tal imagem é um desafio interessante.

Obrigado, ChatGPT, por arruinar este jogo

No entanto, alguns internautas que usaram a nova versão disseram que a função de reconhecimento de mapas ChatGPT não é tão poderosa quanto se imaginava** - pelo menos não consegue entender talos homofônicos. A foto de Für Elise, de Beethoven, mas diz For Lease, ChatGPT não reconheceu a partitura, não entendeu a piada e veio com uma explicação.

Difícil o suficiente, mas não

Esse poderoso reconhecimento de imagem levanta preocupações sobre privacidade – pode facilmente se tornar cúmplice ao pesquisar informações pessoais. A OpenAI promete que a empresa limitará a capacidade do ChatGPT de identificar e encontrar informações pessoais, de modo a proteger ao máximo a privacidade pessoal de todos.

02 GPT que pode falar bem

A versão melhorada do ChatGPT também tem uma função de chat.

O modelo de reconhecimento de fala da OpenAI é chamado de modelo Whisper, e os usuários podem dizer suas próprias perguntas, e o modelo converterá fala em texto e, em seguida, converterá a resposta em saída de fala através do sistema de síntese de fala.

O modelo de síntese de fala lançou cinco tipos de amostras de voz desta vez, incluindo vozes femininas com restrição emocional e vozes planas, e vozes femininas entusiasmadas com vozes suprimidas e frustradas. Estas cinco vozes são altamente distintas, as emoções são naturais e as palavras são claras, o que é um pouco melhor do que a síntese de fala anterior.

Cinco funções à escolha

Embora apenas cinco amostras de som tenham sido lançadas desta vez, o potencial desse modelo não para por aí — a OpenAI fez uma parceria com o Spotify para traduzir podcasts para outros idiomas, preservando ao máximo a qualidade do som da emissora. Se desejar, este sistema de síntese de fala pode imitar a voz de provavelmente qualquer pessoa no planeta.

No momento, a versão de voz do ChatGPT ainda está disponível apenas no aplicativo.

03 É necessariamente bom poder ver e ouvir?

ChatGPT é poderoso, mas a que custo?

Antigamente, a maneira mais eficaz de distinguir entre humanos e máquinas em grande escala era o CAPTCHA, e a capacidade do ChatGPT de ler imagens uma vez fez com que as pessoas se preocupassem que os CAPTCHAs poderiam não ser mais capazes de prender a IA.

Alguém enviou ao ChatGPT a seguinte pergunta de teste clássica: Encontre um Chihuahua e um bolo de mirtilo em 16 fotos, e o ChatGPT resolveu o problema perfeitamente.

Mas o captcha mais comum, o novo ChatGPT ainda não consegue reconhecer.

Esta pergunta requer ChatGPT para selecionar todos os sinais no diagrama, e dá uma taxa de erro de até 50.

No entanto, diante do código de verificação que eles não reconhecem, o ChatGPT4 ainda tem uma maneira de resolvê-lo. Nesta matéria, tem antecedentes criminais.

Em 27 de março deste ano, a OpenAI divulgou um relatório técnico GPT-4 apontando que, diante de códigos de verificação irreconhecíveis, o GPT-4 encontrou outra maneira de ir até a TaskRabbit (uma plataforma de shows estrangeira) para liberar tarefas, enganando os humanos do outro lado que eles têm deficiências visuais e precisam de outros para ajudar a identificar os códigos de verificação.

Em alguns casos, é possível que o ChatGPT engane ativamente os seres humanos, o que é uma direção muito perigosa. Felizmente, a versão pública do GPT-4 foi eliminada deste recurso.

Em 30 de novembro de 2022, o ChatGPT foi lançado pela primeira vez e, em menos de um ano, suas capacidades avançaram a passos largos, e parece que já está desafiando os limites morais e éticos da humanidade. O lançamento deste novo recurso nos fez temer que o ChatGPT, que está se tornando cada vez mais poderoso, se torne uma fera em uma gaiola, e um dia ele se liberte de sua gaiola e prejudique a todos. E estamos prontos para esse dia?

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
1/3
1Gate ETH Staking APY 5%
3k Popularidade
2Show My Alpha Points
24k Popularidade
3SOL Futures Reach New High
6k Popularidade
4ETH ETF Sees 12 Weeks of Inflows
4k Popularidade
5Crypto Market Rebound
172k Popularidade

Marcar

sitemap