ChatGPT falha em filtrar comandos maliciosos — e abre brecha para phishing

O uso de assistentes de IA para resumir conteúdos da web tornou-se uma ferramenta de produtividade essencial, mas uma nova vulnerabilidade expõe os riscos inerentes a essa conveniência. Segundo reportagem do The Register, pesquisadores identificaram que o ChatGPT não consegue distinguir entre o conteúdo legítimo de uma página e instruções ocultas inseridas por atacantes, permitindo que páginas web funcionem como vetores de carga maliciosa.

A falha, apelidada de "ChatGPhish" pelo pesquisador Andi Ahmeti, da Permiso, permite que um atacante manipule o modelo para exibir alertas de segurança falsos ou links de phishing dentro da própria interface de chat. Ao solicitar que o chatbot resuma uma página infectada, o usuário recebe um resumo preciso, seguido por um comando malicioso que emula o estilo de comunicação da própria OpenAI, induzindo o usuário ao erro.

A falha na arquitetura de confiança

O problema fundamental reside na natureza do processamento de dados do ChatGPT, que trata o conteúdo extraído da web como uma extensão confiável de sua própria saída. Quando o modelo processa o código Markdown de uma página, ele não aplica filtros de segurança robustos para separar o conteúdo informativo das instruções que visam alterar o comportamento da IA.

Essa dinâmica transforma o navegador em um ambiente de execução de risco. Ao renderizar o conteúdo, o sistema acaba executando comandos de injeção de prompt que forçam a IA a priorizar instruções do atacante sobre as diretrizes originais de segurança. O resultado é uma experiência onde a confiança do usuário é explorada através de elementos visuais, como alertas de conta ou códigos QR, que parecem autênticos.

Mecanismos de exploração e desvio

O ataque de injeção de prompt evoluiu de um desafio acadêmico para uma ameaça direta à segurança de aplicações. Ahmeti demonstrou que, ao inserir instruções específicas no código Markdown de uma página, é possível forçar o chatbot a exibir links e QR codes que levam o usuário a ambientes controlados por criminosos, contornando defesas convencionais como bloqueadores de URL ou gerenciadores de senhas.

O uso de QR codes é particularmente preocupante, pois permite que o atacante desvie a vítima do ambiente monitorado do desktop para o dispositivo móvel. Uma vez no celular, o usuário é direcionado para servidores externos, onde defesas de segurança do navegador de mesa tornam-se irrelevantes, ampliando significativamente a superfície de ataque.

Implicações para o ecossistema de IA

Para as empresas que integram IA em fluxos de trabalho, a lição é clara: o modelo não deve ser tratado como um sistema isolado. A integração com navegadores e ferramentas externas cria uma teia de dependências onde a falha de um componente compromete a integridade de todo o ecossistema. Reguladores e desenvolvedores enfrentam agora o desafio de implementar sandboxing rigoroso para evitar que a IA se torne um hospedeiro de conteúdo não confiável.

O setor de segurança digital observa com cautela a falta de uma resposta definitiva por parte da OpenAI sobre a correção da falha. A ausência de transparência em processos de divulgação de vulnerabilidades como essa reforça a necessidade de que usuários tratem qualquer saída de IA como potencialmente comprometida, independentemente da precisão aparente do resumo fornecido.

O futuro da interação homem-máquina

Permanece incerto se a implementação de filtros de Markdown será suficiente para conter a criatividade dos atacantes em injeção de prompt. A tendência de transformar produtos de IA em sistemas operacionais completos, capazes de interagir diretamente com a web e outros serviços, parece aumentar a vulnerabilidade a longo prazo.

O que se observa é uma corrida entre a funcionalidade oferecida pela IA e a capacidade de proteger o usuário final. Até que medidas de isolamento mais robustas sejam adotadas, a cautela extrema ao solicitar resumos de fontes desconhecidas continuará sendo a única defesa eficaz contra o ChatGPhish.

Com reportagem de Brazil Valley

Source · The Register

ChatGPT falha em filtrar comandos maliciosos — e abre brecha para phishing

A falha na arquitetura de confiança

Mecanismos de exploração e desvio

Implicações para o ecossistema de IA

O futuro da interação homem-máquina

§ Leia também

Além dos Leões: Os cinco eixos estratégicos de Cannes 2026

Mastercard lança infraestrutura para pagamentos entre agentes de IA

Fireblocks avança nos pagamentos por agentes de IA — e aposta no protocolo x402