Robótica · Vídeo · 27 de mai. de 2026

Como o DeepMind usa o Gemini para embutir raciocínio físico na robótica

A transição de modelos de visão de vocabulário fechado para agentes multimodais exige que as máquinas compreendam a física do espaço, não apenas os pixels.

ANÁLISE EM VÍDEOBrazil Valley | Robotics·27 de mai. de 2026·18 min

Em apresentação recente, Paul Reese, líder de Developer Relations para robótica no Google DeepMind, delineou a estratégia da empresa para transpor modelos fundacionais do ambiente digital para o mundo físico. A tese central repousa na substituição de sistemas de controle tradicionais, baseados em ambientes estruturados, por agentes físicos operados pela família de modelos Gemini. O esforço visa resolver o gargalo histórico da robótica: a incapacidade de lidar com a imprevisibilidade do mundo real através de scripts rígidos.

Do vocabulário fechado ao senso comum físico

Reese contrasta a nova arquitetura de Modelos de Visão e Linguagem (VLM) do Gemini Robotics Embodied Reasoning (ER) 1.6 com abordagens anteriores de visão computacional. Modelos clássicos, como YOLO treinado em datasets como ImageNet, operam com vocabulário fechado, limitando a identificação a listas predefinidas. A infraestrutura do DeepMind mapeia linguagem e visão no mesmo espaço semântico. Na prática, isso permite detecção de objetos em vocabulário aberto — o sistema localiza itens a partir de descrições abstratas, como "a ferramenta mais gasta" ou "o componente superaquecendo", sem a necessidade de rotulagem prévia para cada ambiente.

Além da identificação semântica, o executivo afirma que o modelo introduz o que o DeepMind classifica como "senso comum físico". A máquina infere relações de peso e integridade estrutural, compreendendo que uma garrafa de vidro exige manuseio diferente de uma de plástico, ou que não deve tentar erguer uma mesa fixada ao chão. Para lidar com distorções visuais, o ER 1.6 incorpora visão agêntica. Reese cita o exemplo de um chip ESMT em uma placa de circuito: o modelo gera um código intermediário para localizar, cortar e rotacionar a imagem do texto invertido, garantindo a leitura correta dos dados.

Para contexto editorial, a BrazilValley nota que essa camada de inferência tenta resolver o problema crônico da robótica industrial, onde a variação não mapeada de uma linha de montagem frequentemente resulta em falhas mecânicas ou interrupções operacionais severas.

Atuação direta e arquitetura de segurança

A etapa final do fluxo robótico — a atuação — é gerenciada por modelos de Visão, Linguagem e Ação (VLA). Segundo Reese, enquanto a teoria de controle padrão é suficiente para movimentos repetitivos, a navegação em espaços não estruturados exige respostas dinâmicas. Os modelos VLA traduzem instruções em linguagem natural e quadros de câmera diretamente em valores para os motores e atuadores. O sistema também utiliza o "raciocínio temporal de longo horizonte", processando o delta entre quadros de vídeo sucessivos para confirmar se uma tarefa física foi concluída com sucesso.

Para a interação humano-robô, o executivo destaca a Gemini Live API, que permite conversas bidirecionais de baixa latência e fluxos contínuos de câmera. Isso transforma comandos naturais — como pedir para apertar um parafuso solto — em chamadas de função precisas. A validação lógica ocorre em simuladores de navegador como o MuJoCo, evitando riscos no hardware físico durante a prototipagem.

A transição de um agente digital para uma máquina física pesada impõe riscos significativos. Reese explica que o DeepMind adota um modelo de defesa comparado a um "queijo suíço", onde múltiplas camadas tentam mitigar falhas. Para calibrar essa segurança, a empresa utiliza os benchmarks Asimov, fundamentados em padrões industriais ISO e em dados reais de lesões do banco de dados hospitalar americano NEISS.

A arquitetura apresentada pelo DeepMind sinaliza uma mudança na economia do desenvolvimento robótico: o deslocamento do esforço de engenharia. Em vez de escrever regras condicionais frágeis para cada caso de uso, o desenvolvedor passa a orquestrar objetivos de alto nível, delegando a resolução de microtrajetórias e ambiguidades semânticas ao modelo fundacional. O desafio remanescente, contudo, é provar que a latência e a confiabilidade probabilística desses modelos multimodais conseguem sustentar a tolerância zero a falhas exigida pela indústria pesada.

Fonte · Brazil Valley | Robotics

§ Personalize seu feed

Toque na estrela para seguir.

§ Leia também

Filósofo na DeepMind molda ética da IA em laboratórios dominados por engenheiros

Inteligência Artificial

Filósofo na DeepMind molda ética da IA em laboratórios dominados por engenheiros

Brazil Valley·06 de jul. de 2026

Iason Gabriel questiona a natureza da IA — e por que a técnica não basta

Iason Gabriel questiona a natureza da IA — e por que a técnica não basta

Brazil Valley·02 de jul. de 2026

Apptronik lança robô Apollo 2 e inaugura centro de dados em Austin

Apptronik lança robô Apollo 2 e inaugura centro de dados em Austin

Brazil Valley·01 de jul. de 2026