A construção de inteligência artificial para o mundo físico exige o abandono de robôs especialistas em prol de modelos fundacionais generalistas. Em vídeo publicado no canal Brazil Valley | Robotics em 31 de março de 2026, Sergey Levine, pesquisador e cofundador da Physical Intelligence, argumenta que a tentativa de programar máquinas para casos de uso estreitos — como lavar louça ou dobrar roupas — é um caminho menos eficiente no longo prazo. A tese da empresa baseia-se na premissa de que resolver o problema da inteligência em sua totalidade, criando sistemas que compreendam as leis físicas de interação, acelera a adaptação para qualquer tarefa. Levine afirma que, assim como os modelos de linguagem superaram sistemas de tradução específicos ao alavancar grandes volumes de dados não estruturados, a robótica precisa de modelos de visão, linguagem e ação capazes de operar em qualquer hardware.
O Paradoxo de Moravec e a Lição Amarga
O desenvolvimento de capacidades físicas esbarra no que Levine identifica como uma manifestação do Paradoxo de Moravec. Tarefas cognitivas complexas são facilmente resolvidas por algoritmos, enquanto ações essenciais para a sobrevivência humana, como interagir com o ambiente físico de forma imprevisível, representam desafios de engenharia massivos. O pesquisador cita que atividades envolvendo interação humana direta, como o cuidado de idosos e a troca de fraldas de bebês, serão as últimas fronteiras a serem superadas pela robótica devido à alta exigência de adaptação e ao alto risco de falha.
Para contornar essa barreira, a Physical Intelligence aposta no aprendizado ponta a ponta. Levine defende a aceitação da chamada "lição amarga" (bitter lesson) da IA: a ideia de que programar máquinas com conhecimento humano prévio, como leis da física retiradas de livros didáticos, é inferior a permitir que o sistema aprenda diretamente a partir de dados. Embora reconheça que a abordagem ainda gera controvérsia na comunidade acadêmica, ele sustenta que a generalização da capacidade de melhoria contínua só ocorre quando o sistema depende de dados, e não de intervenção manual de engenheiros.
Para contexto, a BrazilValley aponta que o debate entre abordagens baseadas em simulação sintética e aquelas fundamentadas em dados reais do mundo físico tem definido as estratégias de alocação de capital no setor de robótica nos últimos anos, dividindo empresas entre as que otimizam primariamente a arquitetura mecânica e as que priorizam a camada de software generalista.
Sensores, Senso Comum e Hardware Agnóstico
A execução dessa visão subverte a dependência tradicional de hardwares ultra-sofisticados. Levine afirma que um método de aprendizado robusto compensa deficiências de sensores. Ele exemplifica que o robô utilizado pela empresa possui apenas três câmeras de baixo custo e carece de sensores de toque ou força; ainda assim, o modelo interpreta deformações visuais locais captadas pelas câmeras de pulso como um substituto para o tato. A inteligência, segundo o pesquisador, deve ser agnóstica ao corpo que controla, seja ele um humanoide, um braço mecânico ou um enxame de drones.
A resolução de cenários atípicos, a chamada cauda longa (long tail), exige o que Levine define como senso comum. Para a máquina, isso significa utilizar raciocínio em cadeia (chain of thought). Ao entrar em uma cozinha, o robô processa o comando, observa o ambiente e articula internamente os passos necessários antes de agir. Essa arquitetura permite que a máquina utilize o conhecimento semântico absorvido da web pelos modelos de linguagem multimodais e o ancore na realidade física imediata.
O pesquisador relata que a supervisão desses sistemas atingiu um ponto de inflexão. Em vez de exigir novos dados de teleoperação em baixo nível quando o robô falha, os modelos atuais podem ser corrigidos e aprimorados apenas com instruções semânticas de alto nível. Isso transforma a correção de erros em um processo de "coaching" verbal, removendo o gargalo da coleta física exaustiva.
A transição de sistemas robóticos roteirizados para modelos fundacionais físicos altera a estrutura de desenvolvimento do setor. Se a tese de Levine se provar correta, o valor central da robótica migrará definitivamente da engenharia mecatrônica de precisão para a capacidade de orquestrar modelos de visão, linguagem e ação. O desafio não resolvido permanece na tolerância ao erro em ambientes abertos e caóticos, como o interior de residências. Até que as máquinas adquiram a capacidade humana de usar analogias físicas abstratas para resolver problemas inéditos, a adoção comercial em larga escala dependerá do alinhamento entre a maturidade técnica e a aceitação social do risco físico.
Fonte · Brazil Valley | Robotics




