A capacidade de converter fenômenos complexos em representações gráficas simplificadas é o motor cognitivo que sustenta a descoberta científica e o desenvolvimento tecnológico. Em vídeo publicado no canal The Frontier | Science em 8 de abril de 2025, a cientista cognitiva Judy Fan argumenta que a invenção de ferramentas cognitivas — das coordenadas retangulares de René Descartes aos diagramas de Richard Feynman — permite tornar visível o que escapa à observação direta. A abstração visual não opera apenas como um registro do mundo físico, mas como uma tecnologia de engenharia e comunicação. Para a pesquisadora, entender como o cérebro humano decide o que omitir e o que enfatizar em uma representação gráfica é o passo fundamental para desenvolver sistemas de inteligência artificial que consigam raciocinar sobre dados com a mesma eficiência.

A mecânica da explicação visual

A pesquisa conduzida por Fan investiga como humanos calibram o nível de detalhe em suas representações visuais dependendo do objetivo comunicativo. Em um experimento de desenho focado na identificação de objetos, participantes ajustaram a fidelidade de seus traços com base no contexto. Quando precisavam diferenciar um alvo de outros itens da mesma categoria, produziam desenhos detalhados. Quando os distratores pertenciam a categorias distintas, os voluntários utilizavam menos traços e menos tempo, recorrendo a abstrações esquemáticas sem comprometer a precisão da comunicação.

Essa dinâmica muda quando o objetivo passa da mera identificação para a explicação de um mecanismo físico. A cientista detalhou um estudo em que participantes desenharam engenhocas inéditas. Quando instruídos a explicar o funcionamento da máquina, os desenhistas sacrificaram a fidelidade visual e os elementos de fundo, alocando mais tinta para destacar peças causais e adicionar símbolos, como setas de movimento. Quando o objetivo era apenas retratar o objeto para reconhecimento futuro, a ênfase recaiu sobre a aparência geral.

Para contexto, a BrazilValley aponta que essa economia de atenção na transmissão de conhecimento espelha a evolução histórica do design de interfaces e da sinalização urbana, onde a eliminação do ruído visual não é uma falha de representação, mas um requisito funcional para a tomada de decisão rápida.

O déficit da visão computacional

O domínio humano sobre a abstração comunicativa impõe um desafio direto ao estado da arte do aprendizado de máquina. Fan apresentou os resultados do benchmark SEVA, que reuniu 90.000 esboços humanos de 128 conceitos visuais produzidos sob restrições de tempo. Ao testar 17 algoritmos de visão computacional contra observadores humanos na tarefa de categorizar esses desenhos, a pesquisa revelou um abismo de performance. Embora modelos avançados consigam reconhecer imagens complexas, a variação de precisão entre os algoritmos é eclipsada pela lacuna entre as máquinas e a capacidade humana de tolerar a ambiguidade semântica de esboços esparsos.

O déficit se estende à interpretação de visualizações de dados quantitativos. Ao avaliar modelos multimodais de inteligência artificial — incluindo variantes proprietárias como o GPT-4V — em testes de raciocínio baseado em gráficos, a equipe de Fan constatou que nenhuma das ferramentas atingiu a performance de adultos humanos. Mais criticamente, os erros cometidos pelas máquinas não seguem os padrões de erro humanos.

Segundo Fan, gráficos estatísticos operam como as lentes de um telescópio para padrões muito grandes ou ruidosos para a observação a olho nu, exemplificados historicamente pelo gráfico de séries temporais criado por William Playfair em 1786. A incapacidade atual da IA de mimetizar a leitura humana dessas estruturas indica que o processamento visual mecânico ainda carece das operações fundamentais de raciocínio estatístico.

A fronteira da inteligência artificial multimodal não reside apenas em aumentar a resolução com que as máquinas enxergam o mundo, mas em ensiná-las a ignorar ativamente o que é irrelevante. A análise dos dados de Fan sugere que a abstração visual humana é um processo de engenharia seletiva, intrinsecamente ligado à intenção de quem desenha e de quem lê. Enquanto os algoritmos continuarem processando imagens como coleções estáticas de pixels, sem incorporar a flexibilidade pragmática da comunicação humana, a automação de análises de dados e a geração de explicações visuais permanecerão limitadas e dependentes de supervisão constante.

Fonte · Brazil Valley | Science