Databricks elimina pipelines de dados para destravar agentes de IA

A Databricks apresentou nesta terça-feira, durante o Data + AI Summit, uma nova abordagem tecnológica para resolver o gargalo histórico da integração de dados em empresas. A companhia revelou o Lakehouse//RT e o LTAP (Lake Transactional/Analytical Processing), soluções desenhadas para colapsar a infraestrutura de dados que separa sistemas operacionais de analíticos, eliminando a dependência de pipelines ETL complexos e latentes.

Segundo reportagem da VentureBeat, a iniciativa responde diretamente à demanda por sistemas de IA capazes de raciocinar continuamente sobre dados vivos. Para Reynold Xin, cofundador da Databricks, a simplificação do stack de dados é o "santo graal" para o desenvolvimento de agentes autônomos, que exigem acesso imediato à informação sem as travas impostas por cópias de dados e camadas de governança fragmentadas.

A falha estrutural do HTAP

Historicamente, a indústria tentou resolver a dualidade entre dados transacionais (OLTP) e analíticos (OLAP) através do conceito de HTAP (Hybrid Transactional/Analytical Processing). Diversos fornecedores, incluindo SingleStore, SAP HANA e Oracle MySQL Heatwave, buscaram convergir esses mundos no nível do motor de processamento. Contudo, essa estratégia frequentemente falhou em entregar a simplicidade necessária para cargas de trabalho modernas.

A Databricks argumenta que o problema não reside no motor de consulta, mas na camada de armazenamento. Enquanto o HTAP tentou fundir funcionalidades em um único software, a estratégia de LTAP foca na unificação dos formatos Delta e Iceberg desde o ponto de escrita. Ao manter uma única cópia dos dados acessível por diferentes motores, a empresa busca eliminar a necessidade de movimentação constante de informações entre sistemas distintos.

O mecanismo por trás da latência

O desafio central da unificação é a latência. Armazenamentos de objetos tradicionais possuem tempos de resposta na casa dos segundos, incompatíveis com as necessidades de milissegundos de sistemas transacionais. O Lakebase, serviço de banco de dados PostgreSQL da Databricks, resolve esse obstáculo utilizando uma camada de cache inteligente entre os instâncias de processamento e o armazenamento final.

Nessa arquitetura, o cache realiza a conversão de dados de linha para coluna antes da persistência no armazenamento. Esse processo reduz drasticamente o volume de dados e o custo de rede, permitindo que o PostgreSQL atue como motor transacional enquanto o Spark e o Lakehouse processam a camada analítica sobre a mesma base. O resultado é a eliminação da cópia de dados sem sacrificar a performance operacional.

Implicações para o ecossistema de IA

Para empresas que buscam implementar agentes de IA, a complexidade do pipeline de dados atual atua como um freio na agilidade. O Lakehouse//RT oferece uma alternativa ao servir dados diretamente de tabelas Delta e Iceberg com latência sub-100ms, suportando até 12 mil consultas por segundo. Isso remove a necessidade de um tier de serviço dedicado, facilitando a governança através do Unity Catalog.

Para o mercado brasileiro, que lida com desafios crescentes de governança de dados e integração de legados, essa mudança de paradigma sugere que a infraestrutura de dados deve se tornar invisível para o agente. A tensão entre a necessidade de performance e a rigidez dos sistemas legados continua sendo o principal campo de batalha para os fornecedores de nuvem.

Perspectivas e incertezas

O sucesso dessa abordagem depende de quão bem a Databricks conseguirá sustentar a performance em cenários de escala extrema fora dos ambientes de teste. A transição para um modelo de armazenamento unificado é promissora, mas exige que as equipes de dados revisitem suas arquiteturas atuais.

O mercado observará atentamente se a promessa de eliminar o ETL se traduzirá em economia real ou apenas em uma nova dependência tecnológica. A disputa entre a unificação no nível do motor ou do armazenamento definirá os próximos anos da infraestrutura de IA.

A tecnologia, embora robusta em teoria, ainda precisa provar sua resiliência na prática diária de grandes corporações com sistemas distribuídos complexos. A simplificação proposta pela Databricks marca uma mudança clara na prioridade dos engenheiros, focando na velocidade de execução dos agentes em detrimento das complexas engrenagens de backend.

Com reportagem de Brazil Valley

Source · VentureBeat

Databricks elimina pipelines de dados para destravar agentes de IA

A falha estrutural do HTAP

O mecanismo por trás da latência

Implicações para o ecossistema de IA

Perspectivas e incertezas

§ Leia também

Na era da IA, a Europa redescobre o nacionalismo digital

Microsoft mostra a conta: Azure e Copilot, a dupla de US$ 100 bi

O ex-arquiteto da Fly.io ataca a complexidade do serverless