Em apresentação no I/O 2026, Demis Hassabis declarou que a Inteligência Artificial Geral (AGI) está a poucos anos de distância. A tese central do Google para cruzar essa linha de chegada repousa na criação de um modelo de mundo — um sistema capaz de compreender e simular a realidade de forma nativa. O resultado prático dessa estratégia é o Gemini Omni, um novo modelo construído para gerar qualquer tipo de saída a partir de qualquer entrada. Ao fundir o raciocínio estabelecido da família Gemini com capacidades avançadas de geração de mídia, a empresa sinaliza uma transição arquitetônica. O objetivo deixa de ser apenas a criação de imagens ou textos isolados e passa a ser a simulação contínua do ambiente, um requisito técnico que a companhia considera indispensável para o treinamento de robôs e a operação de agentes autônomos complexos.

O domínio da física intuitiva

A principal evolução técnica reivindicada pelo Gemini Omni é a sua capacidade de simular o que Hassabis descreve como física intuitiva. Enquanto gerações anteriores de inteligência artificial apresentavam dificuldades estruturais para manter a consistência de conceitos como energia cinética e gravidade, o novo modelo promete uma mudança de patamar nessa simulação. O sistema integra tecnologias de modelos de mídia generativa prévios do Google, como Veo, Nano Banana e Genie, para traduzir ideias complexas em representações visuais precisas.

Durante o anúncio, a capacidade de raciocínio do modelo foi ilustrada por meio de um comando simples solicitando um vídeo explicativo em claymation (animação em massa de modelar) sobre o dobramento de proteínas. O resultado gerado não apenas adotou a estética solicitada, mas representou com precisão as cadeias de aminoácidos formando hélices alfa e folhas beta. Para contexto editorial, a BrazilValley observa que a DeepMind, liderada por Hassabis, tem um histórico profundo no problema do dobramento de proteínas com o AlphaFold, o que torna a escolha do exemplo uma demonstração dupla de capacidade gráfica e rigor científico da organização.

Edição iterativa e o ecossistema Flash

O desenvolvimento criativo e técnico raramente ocorre em uma única etapa. Reconhecendo a natureza iterativa do trabalho, o Google estruturou o Gemini Omni para permitir a edição de vídeos com o uso de linguagem natural e conversacional. Assim como o modelo Nano Banana redefiniu a manipulação de imagens estáticas, o Omni aplica essa lógica ao vídeo. Usuários podem fornecer seus próprios registros visuais e alterar elementos da cena de forma fluida — como transformar um círculo desenhado em um buraco negro em movimento —, forçando o ambiente inteiro a se adaptar à nova realidade inserida.

O lançamento comercial começa pela base da pirâmide de processamento. A primeira versão disponibilizada em todos os produtos da companhia é o Gemini Omni Flash, voltado para velocidade e eficiência. A empresa confirmou que uma versão superior, batizada de Gemini Omni Pro, será detalhada em breve. O foco inicial em vídeo reflete o estado atual da tecnologia, mas a promessa arquitetônica do Omni é, com o tempo, processar e gerar qualquer formato de dados a partir de qualquer diretriz.

A introdução do Gemini Omni consolida a visão de que a próxima fronteira da inteligência artificial não está na linguagem pura, mas na compreensão espacial e temporal. Ao tratar vídeos e simulações não como produtos finais de entretenimento, mas como motores de raciocínio físico, o Google prepara o terreno para a próxima geração de agentes de IA. Se a promessa de simulação de gravidade e energia cinética se sustentar em escala comercial, o Omni deixará de ser apenas um gerador de mídia para se tornar o simulador de testes padrão para a robótica industrial e a automação física.

Fonte · Brazil Valley | Technology