Uma nova vulnerabilidade de segurança, batizada de AudioHijack, coloca em xeque a integridade dos assistentes de inteligência artificial que processam comandos de voz. Pesquisadores da Universidade de Zhejiang, na China, em colaboração com especialistas de Singapura, identificaram que é possível injetar comandos maliciosos em sinais de áudio que permanecem imperceptíveis para ouvidos humanos, mas que são interpretados com precisão por Grandes Modelos de Áudio-Linguagem (LALM).
O ataque, apresentado recentemente no Simposio de Segurança e Privacidade do IEEE, demonstrou uma taxa de sucesso alarmante, variando entre 79% e 96% em testes laboratoriais. Ao contrário das injeções de prompt tradicionais baseadas em texto, o AudioHijack manipula digitalmente a onda sonora, fazendo com que a IA processe ordens como se fossem instruções legítimas, enquanto para o usuário o som soa apenas como uma reverberação ou ruído de fundo natural.
Mecanismo de operação silenciosa
A técnica funciona através da modificação dos valores da onda sonora digital, um processo que, segundo os pesquisadores, exige apenas cerca de 30 minutos de treinamento para ser calibrado. A eficácia do ataque reside em sua natureza "agnóstica ao contexto", o que significa que o comando malicioso pode ser embutido em qualquer conteúdo de áudio — desde um podcast até um vídeo de plataforma de streaming — sem depender do que o interlocutor está dizendo no momento.
Mesmo sem acesso direto à arquitetura interna dos modelos, os atacantes conseguem explorar componentes comuns de processamento de áudio presentes na maioria dos sistemas comerciais. O ataque força a IA a realizar ações como o envio de dados privados por e-mail, a execução de buscas web sensíveis ou a disseminação de desinformação, aproveitando-se da confiança que o sistema deposita na entrada de voz.
Riscos para a autonomia dos agentes
À medida que assistentes digitais evoluem para agentes autônomos com acesso profundo à vida digital dos usuários, a superfície de ataque se expande drasticamente. O problema central é que as defesas atuais, desenhadas principalmente para filtrar textos, revelam-se ineficazes contra a manipulação de frequências sonoras. O desafio de auditar áudio em tempo real para detectar essas sutilezas digitais permanece, até o momento, uma lacuna de segurança crítica.
Para o ecossistema de tecnologia, o achado impõe uma necessidade urgente de repensar a arquitetura de segurança de entrada de dados multimídia. Se a IA é capaz de distinguir a voz do usuário, ela também deve ser capaz de validar a autenticidade da fonte sonora, sob risco de transformar assistentes úteis em vetores de vazamento de dados ou execução de código malicioso.
Desafios e perspectivas futuras
O que permanece incerto é a rapidez com que os desenvolvedores de grandes modelos conseguirão implementar contramedidas robustas contra esse tipo de ataque. A natureza invisível da ameaça torna a detecção por parte do usuário final praticamente impossível, transferindo toda a responsabilidade de mitigação para as empresas que treinam e hospedam esses modelos de linguagem.
O setor de segurança cibernética deve observar atentamente como as plataformas de IA reagirão a essa descoberta, especialmente no que tange à padronização de filtros de áudio e à verificação de integridade de sinais. A transição para uma era de agentes digitais autônomos exige, mais do que nunca, que a segurança da camada de entrada seja tratada com o mesmo rigor aplicado aos protocolos de rede e encriptação de dados.
O cenário atual sugere que a confiança nas interações por voz com máquinas precisará passar por uma camada adicional de verificação. A tecnologia de áudio, que até então era vista como um meio de conveniência, agora se revela como um campo de batalha crítico para a proteção da privacidade do usuário. Com reportagem de [Brazil Valley](/categoria/Inteligência Artificial)
Source · La Nación — Tecnología



