O CEO da Snowflake, Sridhar Ramaswamy, trouxe à tona uma preocupação crescente nos conselhos de administração: o custo da inferência de IA. Em conferência recente, o executivo admitiu que a empresa monitora de perto os gastos internos com modelos, refletindo um movimento mais amplo de empresas que buscam conter despesas enquanto integram tecnologias generativas em seus fluxos de trabalho.

Segundo reportagem do The Information, a estratégia para evitar o estouro de orçamentos passa por uma combinação de engenharia de software e governança corporativa. As companhias estão deixando de usar modelos de fronteira para todas as tarefas, adotando uma abordagem pragmática baseada no custo-benefício de cada aplicação.

Roteamento inteligente de modelos

Uma das táticas centrais é o uso de roteadores de modelos. Nem toda tarefa exige a capacidade de raciocínio de um modelo de ponta. Empresas como a Snowflake e a Palo Alto Networks desenvolveram sistemas internos que direcionam comandos simples para modelos menores e mais baratos, reservando os modelos mais caros apenas para problemas complexos.

Essa arquitetura permite que tarefas administrativas, como resumos de documentos ou criação de relatórios, sejam processadas por modelos de código aberto ou versões leves. Ao automatizar essa seleção, as empresas reduzem drasticamente o custo por token, sem comprometer a qualidade necessária para cada função específica.

Governança e limites de uso

Outra frente de atuação é o controle de acesso e o prompt engineering. A UiPath, por exemplo, utiliza técnicas de otimização de comandos para reduzir o tempo de processamento dos modelos, gerando economia significativa em tarefas recorrentes. Paralelamente, CIOs estão implementando tetos de tokens e restringindo o acesso a modelos avançados apenas para funções que realmente demandam tal poder.

Na Zscaler, a governança é atrelada a personas. Engenheiros de software podem ter acesso a modelos de codificação, enquanto times de marketing ou jurídico utilizam versões mais leves. O objetivo é evitar o desperdício de recursos computacionais em problemas que não exigem alta capacidade de processamento.

O retorno do software tradicional

O pragmatismo operacional também levou empresas a reavaliarem o uso da própria IA. A farmacêutica Novo Nordisk, ao analisar dados de ensaios clínicos, concluiu que o Microsoft Excel era mais barato e confiável para certas operações do que modelos de linguagem. O reconhecimento de que a IA não é a solução única para todos os problemas é um passo fundamental na maturidade do setor.

Além disso, a negociação de contratos está mudando. Grandes empresas buscam taxas fixas por usuário em vez de modelos baseados estritamente no uso, buscando evitar surpresas nas faturas mensais. A diversificação de fornecedores também é usada como alavanca de negociação para evitar o lock-in tecnológico.

Perspectivas futuras

A questão que permanece é se essas medidas serão suficientes conforme a demanda por IA cresce. O mercado ainda busca o equilíbrio entre a inovação necessária e a viabilidade financeira. A observação constante sobre a eficiência real dos modelos, em vez da adoção cega, ditará quais empresas conseguirão escalar suas operações com IA de forma sustentável nos próximos anos.

Com reportagem de Brazil Valley

Source · The Information