Em entrevista recente, o fundador e CEO da Suno, Mikey Shulman, articulou a tese central que sustenta a plataforma de inteligência artificial musical: o abandono da teoria musical em favor da física do som. Shulman explicou que instruir um modelo sobre a existência de apenas doze tons na música ocidental ou duzentos instrumentos mapeados cria limitações definitivas. A solução técnica da companhia foi modelar o áudio do zero, tratando-o estritamente como uma onda sonora amostrada a 48.000 vezes por segundo, operando como um número contínuo de ponto flutuante. Essa decisão arquitetônica permitiu à plataforma fundir gêneros díspares — como trap com cítara ou country com baterias 808 — e gerar arranjos microtonais que escapam às convenções tradicionais.
A divergência técnica e o vetor do produto
A evolução do produto exigiu contradições deliberadas em relação ao consenso do mercado de IA. Shulman revelou que, nos estágios iniciais, a qualidade de áudio da Suno era inferior à dos concorrentes, que utilizavam modelos de difusão para gerar clipes nítidos de dez a doze segundos. A Suno optou por modelos autorregressivos para priorizar a geração de canções completas com vocais e narrativas líricas. A premissa era que uma música funciona primariamente como uma história, e a voz humana estabelece uma conexão que faixas instrumentais de fundo não alcançam.
O desenvolvimento desses modelos também diverge da lógica dos grandes modelos de linguagem (LLMs). Shulman argumenta que a música não é um problema resolvido apenas por escala de computação. Diferente do texto, onde existem benchmarks estabelecidos para medir o avanço, o áudio carece de respostas absolutamente corretas. O ganho de performance da Suno depende massivamente de dados de preferência humana, criando um ciclo onde o uso contínuo dita o alinhamento do modelo ao gosto criativo.
Para contexto, a BrazilValley aponta que a dinâmica de priorizar o engajamento sistêmico em detrimento da fidelidade técnica inicial ecoa estratégias de plataformas de software que venceram mercados estabelecendo novos comportamentos de uso antes de refinar a infraestrutura base.
Entretenimento ativo e a estrutura da indústria
A consequência dessa arquitetura é uma mudança no comportamento do usuário. Antes da plataforma, a vasta maioria das pessoas operava como consumidora passiva. Hoje, segundo Shulman, 90% dos usuários diários da Suno criam algo na ferramenta. O objetivo não é exportar faixas para competir no Spotify, mas sim extrair valor do próprio ato de criação — um modelo que o executivo compara ao ato de cozinhar por prazer ou à mecânica de retenção da indústria de videogames.
O avanço da geração sintética inevitavelmente esbarra na infraestrutura de direitos autorais, mas a abordagem da Suno busca integração. Comentando a parceria recente com a Warner Music, Shulman rejeitou a ideia de que as gravadoras estariam obsoletas, classificando-as como instituições culturais vitais que cultivam estrelas. A visão da empresa é evitar a segregação entre música gerada por IA e música tradicional, apontando que a experiência musical digital permaneceu estagnada no formato de streaming por 25 anos. O próximo vetor de expansão envolve tornar a plataforma mais social, permitindo a colaboração assíncrona através de templates de canções e a clonagem autorizada de vozes.
O avanço da Suno sinaliza uma transição na economia da atenção: a migração do consumo passivo para a expressão criativa em escala. Ao tratar a geração de áudio não como um fim comercial isolado, mas como uma ferramenta de entretenimento ativo, Shulman reposiciona a inteligência artificial. O desafio da companhia não reside mais apenas na compressão de áudio ou na capacidade de processamento, mas em provar que a criação musical pode se consolidar como um hábito diário global, reescrevendo a forma como o software intermedeia a cultura.
Fonte · Brazil Valley | Music




