Subquadratic desafia arquitetura de LLMs com nova técnica de atenção — e gera ceticismo

A startup Subquadratic, sediada em Miami, emergiu do modo furtivo com uma promessa que, se confirmada, alteraria a trajetória do desenvolvimento de inteligência artificial. A empresa afirma ter solucionado um gargalo matemático que limita a eficiência dos Large Language Models (LLMs) há quase uma década. O problema central reside na arquitetura de "atenção densa", pilar dos modelos atuais, que exige um custo computacional proibitivo à medida que o volume de texto aumenta. Segundo reportagem da MIT Technology Review, a startup buscou validar suas alegações através de testes independentes realizados pela firma Appen, tentando dissipar o ceticismo inicial que cercou seu anúncio original.

A proposta da empresa é o modelo SubQ, que utiliza uma técnica chamada "atenção esparsa". Diferente dos modelos convencionais, que multiplicam cada palavra de um documento por todas as outras, o SubQ seleciona dinamicamente as relações mais relevantes. A tese editorial aqui é que o setor de IA vive um momento de saturação de infraestrutura, onde o custo marginal de processamento de longos contextos tornou-se um freio para a inovação. A tentativa da Subquadratic de contornar esse limite não é apenas um exercício matemático, mas uma aposta estratégica na viabilidade econômica de aplicações de escala industrial.

A mecânica da atenção e o custo da complexidade

Para compreender a magnitude da alegação, é preciso observar como funcionam os modelos baseados em Transformers, a arquitetura dominante desde 2017. O mecanismo de atenção densa funciona como uma matriz de interdependência onde cada token é comparado a todos os outros tokens em um texto. Se um documento possui 10 mil palavras, o sistema realiza cerca de 50 milhões de multiplicações individuais. Esse processo sofre de uma expansão quadrática: ao dobrar o tamanho do texto, a carga computacional quadruplica, tornando o consumo de energia e o custo financeiro exponencialmente maiores.

Historicamente, a indústria tentou mitigar esse custo com técnicas de atenção esparsa, mas poucas lograram sucesso em manter o desempenho cognitivo dos modelos. A maioria das tentativas anteriores utilizava padrões fixos de comparação, que se mostraram insuficientes para a complexidade da linguagem humana. A Subquadratic afirma ter desenvolvido um mecanismo dinâmico que decide, em tempo real, quais conexões entre palavras são relevantes. Embora a empresa mantenha o sigilo sobre o funcionamento exato do seu algoritmo, o CTO Alex Whedon descreve essa seleção dinâmica como o diferencial fundamental que permite ao SubQ manter a performance sem o peso da atenção densa.

Resultados e a validação independente

Os dados apresentados pela Appen trazem números que chamam a atenção do mercado. Em testes de velocidade, o SubQ operou 56 vezes mais rápido que abordagens concorrentes baseadas em técnicas anteriores de atenção esparsa. Além disso, em testes de recuperação de informação, o modelo atingiu 98% de precisão com janelas de contexto de até 12 milhões de tokens, uma escala raramente alcançada por modelos de grande porte atuais. O custo, segundo o CEO Justin Dangel, também seria drasticamente reduzido, citando uma comparação onde uma tarefa de análise de dados custou 8 dólares no SubQ, contra 2600 dólares em modelos de ponta da Anthropic.

Entretanto, a metodologia de construção do modelo levanta questionamentos. Críticos apontam que o SubQ foi construído sobre pesos pré-existentes do modelo chinês de código aberto Qwen, em vez de um treinamento do zero. Embora o uso de pesos existentes seja uma prática comum em startups para acelerar o desenvolvimento, isso coloca em xeque a narrativa de uma reinvenção total da arquitetura de LLMs. A leitura aqui é que a eficiência demonstrada pode ser fruto de uma otimização inteligente, mas ainda não prova a superação definitiva do limite teórico da atenção quadrática.

Tensões no ecossistema e implicações futuras

O impacto dessa tecnologia, caso seja escalável, é profundo para diversos atores. Para empresas que dependem de análise de vastos repositórios de código ou milhares de documentos jurídicos, a redução de custos e o ganho de velocidade poderiam democratizar o acesso a modelos de alta performance. Por outro lado, para gigantes como OpenAI e Google DeepMind, a existência de uma arquitetura mais eficiente pode pressionar as margens de lucro de seus serviços de API. O ecossistema brasileiro, fortemente dependente de soluções de nuvem e processamento de IA, observa com interesse, já que a eficiência computacional é um fator determinante para a adoção local dessas tecnologias.

Contudo, a escassez de acesso ao modelo para usuários externos permanece como o principal gargalo de credibilidade. A Subquadratic justifica a restrição pela sua pequena estrutura, mas a falta de testes de campo em larga escala impede que especialistas independentes verifiquem se o desempenho observado em benchmarks se traduz em aplicações práticas robustas. A tensão entre a promessa de uma eficiência disruptiva e a necessidade de evidências empíricas mais amplas define o atual estado de alerta do mercado.

O horizonte da eficiência computacional

O que permanece incerto é se a técnica de atenção esparsa da Subquadratic conseguirá manter a paridade de raciocínio com os modelos densos em tarefas criativas ou de raciocínio lógico complexo. Benchmarks são indicadores úteis, mas não substituem a experiência de uso contínuo em diferentes domínios de conhecimento. A indústria aguarda ansiosamente por uma abertura maior da plataforma para desenvolvedores.

O que se deve observar nos próximos meses é a capacidade da empresa em transformar seus resultados de laboratório em uma infraestrutura confiável para clientes corporativos. Se o SubQ provar ser apenas uma otimização específica para tarefas de recuperação, seu impacto será nichado. Se, contudo, a arquitetura demonstrar versatilidade, a Subquadratic terá forçado uma mudança fundamental na forma como a próxima geração de modelos de linguagem será desenhada.

A questão central não é apenas se a startup quebrou um gargalo, mas se o custo dessa inovação — em termos de dependência de modelos pré-existentes e complexidade de implementação — valerá a pena para o mercado global. A trajetória da empresa será um teste de fogo para a viabilidade de alternativas à hegemonia dos Transformers, revelando se a eficiência pode, de fato, competir com a força bruta computacional.

Com reportagem de Brazil Valley

Source · MIT Technology Review

Subquadratic desafia arquitetura de LLMs com nova técnica de atenção — e gera ceticismo

A mecânica da atenção e o custo da complexidade

Resultados e a validação independente

Tensões no ecossistema e implicações futuras

O horizonte da eficiência computacional

§ Leia também

Nova York exige selo para atores gerados por IA em publicidade

Conselhos de administração enfrentam crise de governança na era da IA

IA acelera ataques cibernéticos e força mudança na defesa corporativa