Google acelera IA generativa com o novo DiffusionGemma — 4x mais rápido

O Google DeepMind acaba de expandir sua família de modelos abertos Gemma com o lançamento do DiffusionGemma, uma arquitetura que desafia o paradigma predominante na geração de texto por inteligência artificial. Diferente dos modelos autoregressivos convencionais, que processam informações token a token, o novo modelo utiliza princípios de difusão para produzir blocos de texto simultaneamente. Segundo reportagem da Ars Technica, a inovação promete transformar a eficiência operacional de sistemas de IA rodando em hardware local.

A mudança técnica é significativa, pois desloca a lógica de processamento de uma linha sequencial para uma abordagem de "denoising" similar à utilizada em modelos de geração de imagens. Ao trabalhar sobre um campo de tokens de preenchimento que são refinados em múltiplas passagens, o modelo consegue finalizar blocos de conteúdo de maneira muito mais ágil. Essa alteração estrutural coloca o DiffusionGemma em um patamar de performance que, em testes realizados com hardware de ponta, superou em quatro vezes a velocidade dos modelos Gemma de tamanho equivalente.

A transição do processamento linear para o paralelo

O grande gargalo da IA generativa atual reside na natureza autoregressiva dos modelos, que precisam prever o próximo token com base em todos os anteriores. Esse processo é inerentemente serial e limita a velocidade de resposta, especialmente quando a carga de trabalho aumenta. O DiffusionGemma rompe esse padrão ao tratar o texto como uma tela que é limpa e refinada, um conceito emprestado da difusão de imagens, onde o ruído é gradualmente convertido em uma imagem coerente.

Ao aplicar essa lógica ao texto, o modelo de 26 bilhões de parâmetros utiliza a arquitetura Mixture of Experts (MoE), na qual apenas 3,8 bilhões de parâmetros são ativados durante a inferência. Essa configuração não apenas otimiza o uso de memória, permitindo que o modelo rode em placas de vídeo de alta performance com 18GB de RAM, mas também reduz drasticamente a latência na entrega de resultados, mantendo a precisão necessária para aplicações complexas.

Desempenho e hardware local

Em testes práticos, o DiffusionGemma demonstrou capacidades impressionantes. Utilizando uma GPU RTX 5090, o modelo alcançou a marca de 700 tokens por segundo. Quando operado em um acelerador Nvidia H100, esse número ultrapassa 1.000 tokens por segundo. Esses dados indicam que a barreira entre a execução de modelos pesados em nuvem e o processamento local está se tornando cada vez mais tênue, favorecendo desenvolvedores que buscam soberania sobre seus dados.

A eficiência energética e o throughput de tokens são métricas críticas para a viabilidade comercial de qualquer nova arquitetura de IA. O fato de o Google conseguir entregar quatro vezes mais performance com um modelo MoE sugere que a indústria está encontrando caminhos para contornar os limites físicos dos chips atuais sem a necessidade de escalar infinitamente o poder de processamento bruto.

Implicações para o ecossistema de desenvolvedores

Para o mercado de tecnologia, a chegada do DiffusionGemma representa uma mudança de foco: a busca pela velocidade de inferência agora caminha lado a lado com a otimização da arquitetura. Desenvolvedores que dependem de respostas em tempo real, como em interfaces conversacionais complexas ou sistemas de automação de código, podem encontrar no novo modelo uma alternativa robusta para reduzir custos de infraestrutura em nuvem.

Além disso, o aspecto de "modelo aberto" da família Gemma incentiva a adoção por parte de startups e pesquisadores que buscam customizar soluções sem estarem presos ao ecossistema fechado de grandes provedores de nuvem. A possibilidade de rodar um modelo de 26 bilhões de parâmetros com alta performance em hardware local abre portas para aplicações antes consideradas inviáveis devido ao custo proibitivo de latência e processamento.

O futuro dos modelos de difusão textual

Embora os resultados sejam promissores, a transição para modelos de difusão de texto ainda levanta questões sobre a estabilidade e a consistência em tarefas de raciocínio lógico longo, onde a sequência linear ainda oferece vantagens naturais. O mercado deverá observar como o Google refinará a capacidade de manter o contexto em textos extensos sob essa nova arquitetura paralela.

O sucesso da implementação do DiffusionGemma pode ditar o ritmo de futuras inovações, forçando concorrentes a reconsiderar a primazia da arquitetura Transformer tradicional. O desafio, daqui em diante, será equilibrar a velocidade de geração com a profundidade semântica que os usuários finais demandam. A tecnologia de difusão aplicada ao texto está apenas começando a mostrar seu potencial real.

Com reportagem de Brazil Valley

Source · Ars Technica

Google acelera IA generativa com o novo DiffusionGemma — 4x mais rápido

A transição do processamento linear para o paralelo

Desempenho e hardware local

Implicações para o ecossistema de desenvolvedores

O futuro dos modelos de difusão textual

§ Leia também

Google aposta no rosto para destravar contas: e o Brasil está no centro

BlackRock aposta US$ 40 bi em data centers: a nova corrida do ouro da IA

A IA desce ao chão de fábrica: a automação entra em nova fase