A tese central de Sergey Levine é direta: o problema da robótica não é mecânico, é epistêmico. Robôs falham em tarefas cotidianas não porque seus motores são fracos, mas porque seus modelos de mundo são estreitos. A Physical Intelligence, empresa que Levine cofundou, parte da premissa de que modelos de fundação treinados em dados físicos heterogêneos podem resolver isso da mesma forma que os LLMs resolveram a compreensão de linguagem — não por design explícito de cada comportamento, mas por generalização emergente a partir de escala.
Da especialização ao modelo geral: o paralelo com LLMs
A analogia com grandes modelos de linguagem não é cosmética. Durante décadas, sistemas de processamento de linguagem natural eram construídos para domínios específicos — tradução, classificação, extração de entidades. A ruptura veio quando pesquisadores pararam de otimizar para tarefas e começaram a treinar sobre corpora massivos e heterogêneos. O resultado foi transferência de conhecimento inesperada entre domínios. Levine argumenta que robótica está no mesmo ponto de inflexão: robôs industriais da ABB ou Fanuc são excelentes em soldar chapas de aço, mas não conseguem abrir uma gaveta desconhecida.
O conceito de physical intelligence — inteligência física — é a aposta de que o mesmo princípio se aplica ao mundo material. Um modelo treinado em dados suficientemente diversos de interação física deveria ser capaz de generalizar para tarefas não vistas, da mesma forma que o GPT-4 consegue redigir um e-mail jurídico sem ter sido treinado especificamente para isso. A diferença crítica é que o mundo físico impõe latência, fricção e consequências irreversíveis que o mundo do texto não tem.
Isso torna a coleta de dados o gargalo real. Texto está disponível em escala na internet; dados de interação física robótica de alta qualidade não estão. A Physical Intelligence precisa construir essa infraestrutura do zero — uma vantagem de quem chega cedo, mas também um custo estrutural que não desaparece com mais capital.
Moravec's Paradox e o problema da cozinha
Hans Moravec formulou nos anos 1980 o que ficou conhecido como Paradoxo de Moravec: tarefas difíceis para humanos — xadrez, cálculo diferencial — são fáceis para computadores; tarefas triviais para uma criança de dois anos — pegar um copo, dobrar uma camiseta — são extraordinariamente difíceis para máquinas. Levine revisita esse paradoxo no contexto atual e aponta que o aprendizado por reforço profundo (deep RL) combinado com modelos generativos está começando a corroer essa assimetria, mas de forma não uniforme.
O exemplo da cozinha é revelador. Dobrar roupa lavada — uma das tarefas mencionadas na entrevista como horizonte realista para robôs domésticos — exige percepção de tecido deformável, planejamento de sequência de passos e adaptação a variações infinitas de formato e textura. Nenhum sistema baseado em regras resolve isso. Modelos end-to-end treinados com dados suficientes, segundo Levine, podem.
Os benchmarks que ele chama de "Robot Olympics" são tentativas de criar métricas padronizadas para medir esse progresso — equivalente ao ImageNet para visão computacional em 2012. A ausência histórica de benchmarks robustos em robótica é parte do motivo pelo qual o campo avançou mais lentamente do que visão ou linguagem. Padronizar avaliação é pré-condição para acelerar pesquisa reproduzível e atrair capital com expectativas calibradas.
O que está em aberto é o horizonte temporal. Levine evita promessas precisas — postura rara no ecossistema de robótica humanóide, onde competidores como Figure AI e 1X Technologies projetam implantações comerciais em escala para 2025 e 2026. A Physical Intelligence parece apostar em profundidade técnica antes de escala operacional, o que pode ser vantagem competitiva duradoura ou risco de ser ultrapassada por quem prioriza distribuição. Essa tensão entre pesquisa de fundação e velocidade de produto é o não-resolvido central do campo.
Fonte · The Frontier | Robotics




