A escalabilidade dos grandes modelos de linguagem (LLMs) encontrou um obstáculo técnico fundamental conhecido como o "muro da memória". Segundo reportagem do IEEE Spectrum, a geração de tokens é uma tarefa intrinsecamente limitada pela velocidade com que os dados são lidos da memória, criando um gargalo que se agrava conforme os modelos aumentam de tamanho. A startup Majestic Labs busca resolver esse impasse com o lançamento do servidor Prometheus, que promete oferecer até 128 terabytes de memória, superando em mais de 60 vezes a capacidade de racks de processamento de ponta como o Nvidia DGX B300.
O movimento da Majestic Labs sugere uma mudança na estratégia de design de infraestrutura para IA, priorizando a capacidade de memória sobre a densidade de computação pura. Sha Rabii, cofundador e presidente da startup, argumenta que, embora a Nvidia tenha construído sistemas altamente escaláveis, o modelo atual muitas vezes resulta em um excesso de provisão de computação com uma oferta insuficiente de memória, tornando a operação dispendiosa à medida que a complexidade dos modelos cresce.
Arquitetura centrada em DRAM
Para superar o limite físico das interfaces de memória tradicionais, a Majestic Labs adotou uma abordagem baseada inteiramente em DRAM, utilizando especificamente módulos LPDDR6. Enquanto servidores convencionais dependem da memória de alta largura de banda (HBM), que possui limitações de proximidade física ao processador, a solução da startup utiliza uma interface proprietária composta por cabos de cobre em miniatura. Essa tecnologia permite que a memória seja posicionada a até um metro de distância do processador, sem sacrificar a performance.
Essa arquitetura é coordenada por chips de agregação de memória customizados que atuam como pontos de extremidade para a interface de alta velocidade, distribuindo os dados para diversos chips de DRAM. A empresa afirma que esse design, além de viabilizar grandes pools de memória, oferece uma largura de banda de até 25,6 terabytes por segundo, contornando a restrição de espaço comum em chips de silício tradicionais onde a HBM é limitada pela "linha costeira" disponível ao redor do processador.
O processador Ignite
Para acompanhar o volume massivo de memória, a Majestic Labs desenvolveu o Ignite, uma unidade de processamento de IA customizada que serve como motor central do servidor Prometheus. Cada servidor integra 12 desses chips, que combinam núcleos de aplicação ARM com núcleos vetoriais e tensoriais RISC-V em um único die. Essa integração permite que o processador gerencie diferentes aspectos da inferência de LLMs sem a necessidade de transferências custosas entre múltiplos processadores, otimizando o fluxo de trabalho.
Além da inovação de hardware, a empresa busca reduzir a fricção para a adoção pelo mercado. O Prometheus contará com suporte nativo a frameworks de inferência amplamente utilizados, como PyTorch, vLLM e Triton da OpenAI, garantindo que modelos existentes possam ser executados sem a necessidade de modificações complexas no código. Essa abordagem visa facilitar a transição para clientes que já possuem fluxos de trabalho estabelecidos em ecossistemas de software consolidados.
Implicações para o mercado
A proposta da Majestic Labs coloca em foco a eficiência de capital nas operações de IA. Ao optar por DRAM em vez de HBM, a empresa projeta uma redução significativa nos custos de despesas de capital e no consumo de energia, estimando ganhos de eficiência de até 50 vezes dependendo da carga de trabalho. Para o ecossistema brasileiro de tecnologia, que frequentemente enfrenta desafios de custo e disponibilidade de infraestrutura de alto desempenho, inovações que reduzem o consumo energético e o custo por inferência podem alterar a viabilidade de treinamento e execução de modelos locais.
Concorrentes e reguladores observarão de perto como essa arquitetura modular se comporta em larga escala. A flexibilidade de upgrade, que permite que servidores sejam adquiridos com menos memória e expandidos posteriormente, oferece uma alternativa econômica para empresas que buscam escalar conforme a demanda, desafiando a rigidez dos sistemas de rack fechados que predominam no mercado atual.
Perspectivas de mercado
O cronograma da Majestic Labs aponta para o início das entregas em 2027, um prazo que deixa espaço para que o mercado avalie a viabilidade prática da tecnologia em ambientes de produção real. A ausência de métricas de performance computacional específicas, até o momento, permanece como um ponto de interrogação importante para potenciais compradores que precisam validar o desempenho do Ignite frente às GPUs estabelecidas.
O sucesso da iniciativa dependerá não apenas da superação dos desafios físicos de engenharia, mas da capacidade da empresa em provar que a economia de escala compensa a mudança de arquitetura. O setor de IA continuará monitorando se a aposta na memória massiva será o diferencial necessário para sustentar a próxima geração de modelos ou se a indústria encontrará soluções alternativas dentro dos padrões já consolidados.
A transição para arquiteturas que privilegiam a memória pode redefinir o que se entende por infraestrutura de IA, deslocando o foco da pura força bruta de processamento para uma eficiência mais equilibrada entre dados e cálculo. Resta saber se o mercado de data centers, frequentemente avesso a riscos e mudanças drásticas, estará disposto a integrar uma nova arquitetura proprietária em seus ambientes de missão crítica.
Com reportagem de Brazil Valley
Source · IEEE Spectrum — AI





