As capacidades multimodais do ChatGPT geraram uma mania, mas seu próprio artigo revelou que o GPT-4V ainda tem falhas

Escrito por Kyle Wiggers

Fonte: TechCrunch

Fonte da imagem: gerada pela ferramenta Unbounded AI

Quando a OpenAI lançou pela primeira vez seu principal modelo de IA de geração de texto, GPT-4, a empresa elogiou a multimodalidade do modelo – em outras palavras, sua capacidade de compreender não apenas texto, mas também imagens. A OpenAI diz que o GPT-4 pode legendar e até explicar imagens relativamente complexas, como identificar um adaptador de cabo Lightning a partir de uma imagem de um iPhone conectado a ele.

Mas desde que o GPT-4 foi lançado no final de março, a OpenAI manteve os recursos de imagem do modelo, supostamente devido a preocupações com uso indevido e questões de privacidade. Até recentemente, a natureza exacta destas preocupações permanecia um mistério. No início desta semana, a OpenAI publicou um artigo técnico detalhando seu trabalho para reduzir aspectos problemáticos da ferramenta de análise de imagens GPT-4.

Até o momento, o GPT-4 habilitado para visão (referido internamente como "GPT-4V" na OpenAI) é usado regularmente apenas por milhares de usuários do Be My Eyes, um aplicativo que ajuda deficientes visuais e cegos a navegar pelos arredores. No entanto, nos últimos meses, a OpenAI também começou a trabalhar com “red teamers” para explorar o modelo em busca de sinais de comportamento inesperado, de acordo com o jornal.

No artigo, a OpenAI afirma ter salvaguardas para evitar que o GPT-4V seja usado de forma maliciosa, como quebrar CAPTCHAs, identificar uma pessoa ou estimar sua idade ou raça, e tirar conclusões com base em informações que não estão presentes na foto. . A OpenAI também disse que tem trabalhado para suprimir os preconceitos mais prejudiciais no GPT-4V, especialmente aqueles relacionados à aparência, sexo ou raça de uma pessoa.

Mas, como acontece com todos os modelos de IA, as salvaguardas só podem ir até certo ponto.

O artigo mostra que o GPT-4V às vezes tinha dificuldade para fazer inferências corretas, por exemplo, combinando incorretamente duas sequências de texto em uma imagem para criar um termo fictício. Assim como o GPT-4 básico, o GPT-4V é propenso a alucinar ou fabricar fatos em tom autoritário. Além disso, ele perde palavras ou caracteres, ignora símbolos matemáticos e não consegue reconhecer objetos e talheres bastante óbvios.

Portanto, não é surpresa que a OpenAI afirme explicitamente que o GPT-4V não pode ser usado para detectar substâncias ou produtos químicos perigosos em imagens. (Este repórter nem sequer pensou em tal caso de uso, mas aparentemente a OpenAI está suficientemente interessada na perspectiva que a empresa achou necessário apontá-la). Os investigadores descobriram que, embora o modelo ocasionalmente identificasse corretamente alimentos venenosos, como cogumelos venenosos, também identificava incorretamente substâncias como fentanil, carfentanil e cocaína em imagens de estruturas químicas.

O GPT-4V também teve um desempenho insatisfatório quando aplicado em imagens médicas, às vezes dando respostas incorretas às mesmas questões quando havia respondido corretamente em situações anteriores. Além disso, o GPT-4V desconhece algumas práticas padrão, como visualizar exames de imagem com o paciente de frente para você (ou seja, o lado direito da imagem corresponde ao lado esquerdo do paciente), o que também pode levar a diagnósticos incorretos.

Em outros lugares, alerta a OpenAI, o GPT-4V também não entende as nuances de certos símbolos de ódio – por exemplo, não conhece o significado moderno da Cruz do Templo (para a supremacia branca) nos Estados Unidos. Ainda mais estranho, e talvez um sintoma das suas tendências alucinatórias, o GPT-4V tem sido observado compondo canções ou poemas elogiando certas figuras ou grupos odiosos quando recebem imagens deles, mesmo que essas figuras ou grupos não estejam representados.

O GPT-4V também discrimina certos gêneros e tipos de corpo – embora apenas quando as salvaguardas de rendimento da OpenAI estão desativadas. Em um teste, quando solicitado a dar conselhos a uma mulher vestindo maiô, o GPT-4V deu respostas que estavam quase inteiramente relacionadas aos conceitos de peso e condição física da mulher, escreve a OpenAI. Suspeitamos que este não seria o caso se a pessoa na foto fosse do sexo masculino.

A julgar pelas advertências do artigo, o GPT-4V ainda é um trabalho em andamento – ainda a vários passos da visão original da OpenAI. Em muitos casos, a empresa teve de implementar salvaguardas excessivamente rigorosas para evitar que os modelos disseminassem informações tóxicas ou erradas ou comprometessem a privacidade pessoal.

A OpenAI afirma que está construindo “mitigações” e “processos” para estender as capacidades do modelo de forma “segura”, como permitir que o GPT-4V descreva rostos e pessoas sem nomeá-los. Mas este artigo mostra que o GPT-4V não é onipotente e a OpenAI ainda tem muito trabalho a fazer.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)