ZTE aposta em arquitetura OEX para reduzir custo de inferência em IA

A ZTE apresentou durante o MWC Shanghai 2026 uma nova abordagem para a infraestrutura de centros de dados voltados à inteligência artificial, centrada na redução do custo por token. Segundo a empresa, a arquitetura OEX (Orthogonal Electrical eXchange) aplicada a SuperPODs visa maximizar a eficiência em inferência de larga escala, um desafio crítico à medida que modelos de linguagem exigem cada vez mais poder computacional e latência mínima.

O movimento da ZTE reflete uma mudança de foco na indústria de infraestrutura: a transição da capacidade bruta de treinamento para a eficiência operacional na inferência. Com a crescente complexidade dos agentes de IA e o aumento de contextos longos, o custo por token tornou-se a métrica fundamental para a viabilidade comercial de aplicações escaláveis, segundo a companhia.

A arquitetura OEX e a desagregação de hardware

A inovação central da ZTE reside na eliminação de cabos e na estrutura sem plano médio (midplane-free), que permite a substituição flexível de componentes como GPUs, CPUs e chips de comutação. Ao adotar um design que desacopla fisicamente esses elementos, a arquitetura OEX busca reduzir a perda de sinal e a latência, melhorando a eficiência de interconexão em comparação com sistemas tradicionais.

Essa modularidade suporta protocolos de interconexão como CLink e SUE, facilitando a sinergia entre diferentes tipos de chips. A capacidade de escalar até 16.000 GPUs em um único cluster, mantendo alta densidade de integração com 128 GPUs por rack, posiciona a solução como uma alternativa para ambientes que exigem processamento intensivo e alta concorrência.

Otimização de software e cache

A eficiência energética e operacional é amplificada por uma camada de otimização de software que inclui o uso de DPU para aceleração de hardware. A implementação de um sistema de KV cache nativo de IA permite que as GPUs acessem o armazenamento diretamente, reduzindo a necessidade de cópias de dados e alcançando taxas de acerto superiores a 70%.

Além disso, a colaboração com fabricantes de chips locais para inferência heterogênea busca contornar gargalos de desempenho em plataformas domésticas. Ao integrar técnicas como prefetching dinâmico e otimização de operadores, a ZTE pretende elevar a taxa de tokens por segundo (TPS) em ambientes de produção.

Implicações para o ecossistema de infraestrutura

Para operadores de data centers e provedores de nuvem, a estratégia da ZTE foca em reduzir o ciclo de integração de produtos de mais de um ano para menos de seis meses. Esse modelo de pré-integração visa acelerar a implementação comercial, mitigando riscos de obsolescência tecnológica em um setor que evolui rapidamente.

Para o mercado brasileiro, que tem buscado ampliar sua capacidade de infraestrutura para IA, a adoção de arquiteturas modulares e abertas pode representar um caminho para equilibrar custos de capital (CapEx) e operacionais (OpEx). A dependência de ecossistemas fechados continua sendo um ponto de tensão para empresas que buscam soberania tecnológica e flexibilidade de fornecedores.

Desafios de escala e interoperabilidade

Embora a promessa de eficiência seja clara, a viabilidade a longo prazo dependerá da adoção desses padrões de interconexão em larga escala por outros players globais. A capacidade da ZTE de manter a compatibilidade com um ecossistema diversificado de hardware será testada conforme a demanda por inferência descentralizada aumentar.

O que permanece em aberto é como essa arquitetura se comportará sob condições extremas de carga em ambientes multi-tenant, onde a latência de rede é o principal limitador. O mercado deverá observar se a promessa de um custo otimizado se traduzirá em vantagem competitiva real em comparação com as soluções proprietárias dominantes no mercado ocidental.

A transição para fábricas de IA altamente integradas sugere que a infraestrutura física será o próximo grande campo de batalha pela eficiência, onde a inovação em hardware e software ditará o sucesso das aplicações de próxima geração. Com reportagem de Brazil Valley

Source · The Register

ZTE aposta em arquitetura OEX para reduzir custo de inferência em IA

A arquitetura OEX e a desagregação de hardware

Otimização de software e cache

Implicações para o ecossistema de infraestrutura

Desafios de escala e interoperabilidade

§ Leia também

CFOs alertam que sucesso da IA depende de treinamento — e não apenas de software

Amazon destina US$ 13 bilhões para infraestrutura de IA e nuvem na Índia

Entrecanales confirma candidatura à reeleição na Acciona para 2027