Alibaba reduz uso de tokens em 99% com nova arquitetura para agentes de IA

Pesquisadores do Alibaba desenvolveram um framework batizado de SkillWeaver, projetado para resolver um dos gargalos mais críticos na implementação de agentes de IA corporativos: a ineficiência no roteamento de ferramentas. Em vez de carregar bibliotecas inteiras de funções para o contexto do modelo a cada sub-tarefa, o sistema utiliza uma abordagem de decomposição estruturada, reduzindo o consumo de tokens em até 99% em testes experimentais.

O avanço endereça o desafio comum em que agentes de IA, ao lidar com centenas de habilidades disponíveis, falham na escolha da ferramenta correta para cada etapa de um fluxo de trabalho complexo. Segundo reportagem do VentureBeat, o SkillWeaver organiza a execução através de um grafo que mapeia dependências, garantindo maior precisão na orquestração de operações multi-etapas.

A complexidade do roteamento de habilidades

O problema central enfrentado pelos desenvolvedores é que a maioria dos frameworks atuais trata o uso de ferramentas de forma simplista, como uma seleção única ou um problema isolado por etapa. No entanto, as demandas corporativas reais são inerentemente composicionais. Uma solicitação comum, como baixar um conjunto de dados, processá-lo e gerar um relatório visual, exige a orquestração sequencial de diferentes APIs, o que sobrecarrega os limites de contexto dos LLMs quando bibliotecas inteiras são expostas desnecessariamente.

Ao tentar processar centenas de milhares de tokens para identificar a ferramenta ideal, os sistemas atuais tornam-se lentos e custosos. O SkillWeaver propõe uma mudança de paradigma ao tratar o roteamento não como uma busca exaustiva, mas como um processo de decomposição de tarefas onde a granularidade é o fator determinante para o sucesso da operação.

Mecanismo de decomposição e feedback

O funcionamento do framework ocorre em três estágios: decomposição, recuperação e composição. Inicialmente, um LLM atua como um decompositor de tarefas, quebrando a solicitação do usuário em sub-tarefas atômicas. Em seguida, um modelo de embedding realiza a busca por candidatos relevantes na biblioteca de ferramentas, selecionando apenas o que é estritamente necessário para cada nó do fluxo.

Para superar a imprecisão comum de LLMs ao descrever passos técnicos, o sistema introduz a técnica de Skill-Aware Decomposition (SAD). Este loop de feedback permite que o agente refine seu plano inicial após uma busca preliminar, ajustando a descrição das tarefas com base no vocabulário técnico real encontrado na biblioteca de habilidades, garantindo que o plano final seja executável.

Implicações para o ecossistema de agentes

Para desenvolvedores e empresas, esta arquitetura sinaliza uma mudança na forma como agentes autônomos serão construídos. A capacidade de criar fluxos de trabalho que funcionam como grafos acíclicos direcionados (DAGs) permite que tarefas independentes sejam executadas em paralelo, o que otimiza significativamente o tempo de resposta e a eficiência operacional em ambientes de produção.

O modelo também lança luz sobre a importância de documentações estruturadas para ferramentas de IA. À medida que o setor se afasta da abordagem de 'força bruta' na seleção de ferramentas, a qualidade da especificação natural das habilidades torna-se o principal diferencial para a interoperabilidade entre diferentes sistemas e APIs no mercado de tecnologia.

Perspectivas e desafios técnicos

Embora os resultados de redução de tokens sejam expressivos, a eficácia do SkillWeaver depende da precisão inicial do decompositor de tarefas. A incerteza sobre como o sistema lida com falhas em tempo de execução ou com a introdução dinâmica de novas ferramentas no ecossistema permanece como uma área aberta para investigação futura.

O mercado deve observar como essa abordagem de 'retrieve-and-route' será integrada aos padrões de comunicação entre agentes, como o Model Context Protocol (MCP). A evolução dessas arquiteturas determinará a viabilidade de agentes autônomos que operam de forma confiável em fluxos de trabalho de nível empresarial.

Com reportagem de Brazil Valley

Source · VentureBeat

Alibaba reduz uso de tokens em 99% com nova arquitetura para agentes de IA

A complexidade do roteamento de habilidades

Mecanismo de decomposição e feedback

Implicações para o ecossistema de agentes

Perspectivas e desafios técnicos

§ Leia também

IA agêntica coloca US$ 234 bilhões em gastos de software corporativo sob risco

Goiás aposta R$ 300 milhões para criar hub de inteligência artificial em Goiânia

Softtek aponta que 95% das operações de TI ganham eficiência com IA