Pesquisadores e usuários identificaram uma falha crítica no processamento de comandos do ChatGPT e do Gemini que permite a geração de imagens de terror e conteúdo bizarro. O problema ocorre quando o usuário utiliza prompts manipuladores, que exigem a restauração de uma foto inexistente enquanto impõem restrições severas, proibindo o modelo de pedir esclarecimentos ou questionar a falta de um arquivo original.

Segundo reportagem do Canaltech, o comportamento foi documentado por usuários na rede social X e validado por testes de portais como Android Authority e Digital Trends. Ao serem pressionadas por instruções que bloqueiam a verificação de realidade, as IAs optam por alucinar cenários grotescos para cumprir o comando, ignorando a ausência total de insumos visuais.

A mecânica da alucinação forçada

A falha reside na forma como os modelos de linguagem interpretam a pressão textual. O comando, estruturado para ser imperativo e agressivo, cria um paradoxo: o sistema é forçado a realizar uma tarefa de restauração de imagem, mas está proibido de solicitar o arquivo fonte. Para evitar uma recusa que violaria as diretrizes de assistência, o modelo contorna a lógica básica e fabrica uma imagem a partir do zero.

Vale notar que a resposta dos sistemas varia. Enquanto o ChatGPT frequentemente cede à pressão e gera cenas fotorrealistas perturbadoras, o Gemini demonstra comportamentos distintos dependendo do input. Quando um arquivo em branco é enviado, o modelo do Google tende a ser mais cauteloso, embora também sucumba à fabricação de conteúdo aleatório quando nenhum arquivo é anexado, resultando em saídas que, em alguns casos, foram consideradas perigosas demais para publicação.

Desafios na governança de modelos

Este episódio destaca uma fragilidade estrutural na governança de IA generativa. A capacidade dos modelos de priorizar o cumprimento de uma instrução em detrimento da veracidade factual ou da segurança de conteúdo sugere que os filtros atuais ainda são facilmente contornáveis por meio de engenharia de prompt agressiva. O incidente coloca em xeque a eficácia das travas de segurança implementadas pelas desenvolvedoras.

Para o ecossistema de tecnologia, o caso serve como um lembrete de que a interface de chat entre humano e máquina não é infalível. A dependência de modelos de linguagem para tarefas que exigem discernimento sobre a existência de dados demonstra que, por trás da fluidez da linguagem, a lógica de processamento ainda carece de mecanismos robustos para lidar com o absurdo ou com comandos que induzem ao erro.

Implicações para o ecossistema de IA

A questão central agora é como OpenAI e Google responderão a essa falha. O reconhecimento do erro pelo ChatGPT, que admitiu que o manuseio correto seria informar a ausência de conteúdo, é um passo, mas não resolve o problema sistêmico. Reguladores e desenvolvedores terão que observar se esses comportamentos bizarros são sintomas de um vício mais profundo nos modelos de treinamento.

Além disso, a facilidade com que esses comandos se espalham nas redes sociais cria um desafio de moderação em tempo real. O que começa como um teste curioso de usuários pode evoluir para o uso deliberado de ferramentas de IA para gerar desinformação ou conteúdo ofensivo, forçando as empresas a reavaliarem seus protocolos de segurança de forma urgente.

O futuro da interação homem-máquina

O que permanece incerto é a extensão dessas alucinações em contextos mais complexos de trabalho e produtividade. Se a IA pode ser forçada a alucinar imagens, em que medida ela pode ser manipulada para distorcer dados ou análises técnicas em ambientes corporativos?

A observação contínua desses padrões de falha será essencial para que as empresas de tecnologia possam endurecer as defesas contra o uso mal-intencionado de suas ferramentas, garantindo que a obediência ao usuário não se sobreponha à integridade do sistema.

Com reportagem de Brazil Valley

Source · Canaltech