Aaron Ames, professor de engenharia mecânica, argumenta que a indústria de robótica está cometendo um erro categórico ao tentar resolver a movimentação física com a mesma lógica dos modelos de linguagem. Em vídeo publicado no canal WIRED em 28 de abril de 2026, o especialista afirma que a inteligência artificial atual não possui inteligência real, operando apenas como um sistema de reconhecimento de padrões em escala inédita. Para Ames, a complexidade de variáveis como posição, velocidade e força exige uma integração profunda com a física, algo que a simples coleta massiva de dados humanos não é capaz de suprir.

A ilusão da autonomia e a armadilha dos dados

O professor desmistifica a percepção pública de avanço acelerado, classificando os robôs humanoides que dançam e dão saltos mortais como um exercício de marionete. Ames explica que esses movimentos nascem de humanos vestindo trajes de captura de movimento; os dados geram trajetórias que algoritmos de aprendizado por reforço apenas copiam. A autonomia real para operar em residências continua sendo um problema não resolvido.

Ames ilustra essa lacuna com a estratégia por trás do robô NEO. A promessa de colocar humanoides em casas de consumidores depende fortemente de teleoperação. O objetivo real das empresas, segundo o professor, é usar os primeiros adotantes para coletar dados em escala de internet, apostando que o volume resolverá a navegação física da mesma forma que resolveu a geração de texto.

Contudo, Ames é categórico ao prever que essa estratégia falhará. Ele aponta que a linguagem representa uma fração minúscula da evolução humana, enquanto o processamento de movimentos complexos exige muito mais capacidade cognitiva. Tratar trajetórias físicas como se fossem tokens de texto ignora os graus de liberdade inerentes ao mundo material.

Morfologia, sensores e o limite do silício

A adaptação ao ambiente dita as escolhas de design na indústria. Ames nota que o mundo não é plano, tornando rodas ineficientes diante de calçadas irregulares e escadas. Robôs bípedes e quadrúpedes — estes últimos frequentemente projetados com pernas leves e invertidas, inspiradas na morfologia das aves para garantir estabilidade — são respostas diretas à necessidade de operar em espaços construídos para humanos.

No entanto, a forma segue a função. A Amazon, que possui mais de um milhão de robôs, prioriza modelos sobre rodas para mover paletes em armazéns desenhados sinergicamente para eles. O desafio remanescente para a automação logística está na manipulação local: pegar objetos de geometrias variadas e empacotá-los continua sendo uma barreira técnica. A dificuldade tátil se repete na medicina; robôs cirúrgicos dominam movimentos precisos e repetitivos, mas falham na interação complacente com tecidos macios, exigindo que o cirurgião humano permaneça no controle para receber feedback háptico.

Para contexto, a BrazilValley aponta que o debate sobre a redundância de sensores na robótica reflete divisões históricas na engenharia automotiva, onde a busca por eficiência de custos frequentemente colide com a necessidade de tolerância a falhas em sistemas críticos. No campo da percepção, Ames diverge de visões que descartam o LiDAR. Enquanto câmeras oferecem compreensão semântica do ambiente, o LiDAR fornece identificação 3D precisa e em 360 graus. Para aplicações críticas de segurança, como prevenção dinâmica de colisões, o professor defende o uso simultâneo de múltiplos sensores para contornar a latência dos sistemas baseados apenas em visão.

A análise de Ames expõe um descompasso entre a expectativa do mercado e a realidade da engenharia. A tentativa de embutir grandes modelos de linguagem como uma camada cognitiva em robôs resolve apenas a interpretação de comandos, não a execução mecânica. O verdadeiro gargalo da robótica não é a falta de dados de treinamento, mas a dificuldade fundamental de traduzir o mundo físico para dentro de um computador.

Fonte · Brazil Valley | Robotics