O Departamento de Energia (DoE) dos Estados Unidos ativou um novo supercomputador no Laboratório Nacional Lawrence Livermore, batizado de Lynx, que se destaca não pelo poder de processamento bruto, mas pela escolha incomum de sua infraestrutura de rede. Enquanto o mercado de computação de alto desempenho (HPC) é amplamente dominado pelo InfiniBand da Nvidia ou pelo sistema proprietário Slingshot da HPE, o Lynx utiliza a tecnologia Omni-Path, desenvolvida pela startup Cornelis Networks.

O sistema, composto por 952 nós Dell PowerEdge equipados com processadores Intel Xeon Sapphire Rapids, foi comissionado pela Administração Nacional de Segurança Nuclear (NNSA). A implementação serve como um teste de estresse para a nova geração de switches e placas de interface de rede (NICs) da série CN5000 da Cornelis, que buscam provar que existe vida fora do ecossistema da Nvidia para cargas de trabalho de alta complexidade.

O retorno de uma tecnologia esquecida

A tecnologia Omni-Path não é exatamente nova, tendo sido concebida originalmente pela Intel em 2015 para atender ao mercado de HPC. Após uma adoção inicial em sistemas como o Trinity e o Cori, a Intel descontinuou o projeto em 2019, o que parecia selar o destino da plataforma. No entanto, a divisão foi desmembrada em 2020, dando origem à Cornelis Networks, que passou os últimos anos reformulando o protocolo para atender às exigências atuais de velocidade e latência.

O ressurgimento ocorre em um momento em que a demanda por largura de banda em clusters de IA e simulação atinge níveis críticos. Com a promessa de 400 Gbps e um escalonamento de desempenho quase linear, a Cornelis conseguiu atrair a atenção do governo americano, que busca diversificar seus fornecedores para evitar a dependência absoluta de uma única arquitetura de rede em seus centros de processamento mais sensíveis.

Mecanismos de eficiência e escalabilidade

A grande aposta da Cornelis reside na eficiência de rede. Segundo a CEO Lisa Spelman, o Lynx demonstrou uma eficiência de escalonamento de 91%, um número expressivo para um cluster desse porte. A tese da empresa é que, à medida que os clusters crescem, o gargalo deixa de ser o processador e passa a ser a rede, tornando a otimização do tráfego de dados o fator determinante para o desempenho final do supercomputador.

A arquitetura da série CN5000 evita a complexidade adicional de grandes switches PCIe integrados, uma estratégia frequentemente utilizada pela Nvidia para contornar limitações de largura de banda. Ao manter uma abordagem mais simplificada, a Cornelis afirma que consegue entregar resultados competitivos com menor custo de implementação e menor complexidade operacional, atraindo gestores de TI que buscam maior previsibilidade em ambientes de escala massiva.

Implicações para o ecossistema de HPC

A adoção pelo DoE funciona como um selo de validação para a indústria. Em um mercado onde a aversão ao risco é alta, ter um sistema governamental operando com sucesso com tecnologia Omni-Path abre portas para que outros centros de pesquisa e empresas privadas considerem a alternativa. A tensão entre o InfiniBand, que enfrenta alta demanda por clusters de IA, e tecnologias emergentes cria uma oportunidade de mercado para fornecedores que conseguem entregar performance sem as restrições de estoque e custo da Nvidia.

Para o mercado brasileiro, que busca expandir sua infraestrutura de computação científica e nuvem, o movimento da Cornelis levanta questões sobre soberania tecnológica e diversificação de fornecedores. A possibilidade de integrar equipamentos com suporte a Ethernet no futuro, prevista para a série CN6000, pode facilitar a adoção de tecnologias de interconexão de alto desempenho em ambientes corporativos que hoje se sentem limitados pelas opções proprietárias dominantes.

O caminho para os 800 Gbps

O futuro da Cornelis depende agora de sua capacidade de manter o ritmo de inovação. A expectativa para o segundo semestre é o lançamento da linha CN6000, que deve elevar a capacidade para 800 Gbps, alinhando-se ao lançamento de processadores compatíveis com PCIe 6.0. O desafio será provar que a tecnologia pode escalar de forma estável para sistemas com dezenas de milhares de nós, mantendo a mesma eficiência demonstrada no Lynx.

Acompanhar a evolução desses sistemas será fundamental para entender se o mercado de HPC conseguirá, de fato, descentralizar sua infraestrutura de rede. A pergunta que permanece é se a eficiência técnica será suficiente para deslocar a inércia do mercado, ou se o domínio da Nvidia sobre o ecossistema de software e hardware continuará a ser a barreira intransponível para novos entrantes.

Com reportagem de Brazil Valley

Source · The Register