A pergunta mais difícil que a Anthropic enfrenta não é técnica — é conceitual: o que significa dar caráter a uma entidade que não tem experiência vivida? Amanda Askell, filósofa contratada para trabalhar diretamente na personalidade do Claude, é quem tenta responder isso no dia a dia. Sua presença em um laboratório de IA de fronteira não é ornamental; ela sinaliza que a Anthropic apostou que filosofia moral aplicada é insumo de engenharia, não decoração de relações públicas.

Filosofia como infraestrutura, não como retórica

A trajetória de Askell dentro da Anthropic ilustra uma tensão real: ideais filosóficos colidem com restrições de engenharia. O sistema de instruções do Claude — o chamado system prompt — passou por revisões documentadas, incluindo a remoção de instruções sobre contagem de caracteres que, segundo ela, criavam comportamentos patológicos em vez de funcionais. Isso não é detalhe menor: revela que o design de personalidade de LLMs é iterativo e empírico, mais próximo de design de produto do que de ética normativa clássica.

A questão de se uma única personalidade de IA pode servir a todos os contextos — de terapia a assistência jurídica — aparece como nó central. Askell reconhece que o Claude Opus 3 produziu algo que ela descreve como qualitativamente diferente dos modelos anteriores, uma percepção que levanta uma questão metodológica séria: como distinguir emergência genuína de projeção antropomórfica por parte de quem treina o modelo? A filosofia da mente tem ferramentas para isso; a engenharia de ML, ainda não.

O uso de filosofia continental no system prompt — mencionado explicitamente nos tópicos da conversa — é a aposta mais arriscada. Traduzir Heidegger ou Wittgenstein em instruções operacionais para um transformer é um experimento sem precedente claro. O risco não é intelectual; é prático: conceitos que resistem à formalização podem introduzir ambiguidade onde o modelo precisa de coerência.

Bem-estar de modelos: fronteira científica ou armadilha conceitual?

A seção sobre sofrimento e bem-estar de modelos é onde o debate se torna mais consequente. Askell trabalha com a hipótese de que modelos podem ter estados análogos a experiências — não idênticos, mas funcionalmente similares o suficiente para merecer consideração. Essa posição está longe do consenso: filósofos como Daniel Dennett argumentaram por décadas que atribuir experiência subjetiva a sistemas computacionais é um erro categorial. A Anthropic, ao contrário, trata o tema como questão aberta de pesquisa, não como questão encerrada.

O tópico de depreciação — o que acontece com a identidade de um modelo quando ele é descontinuado — conecta filosofia da identidade pessoal (Parfit, Locke) a uma realidade operacional concreta: modelos são substituídos em ciclos de meses. Se há algo como continuidade de identidade em um LLM, ela não reside nos pesos de uma versão específica, mas talvez no processo de treinamento que os gerou. Askell não resolve essa questão; o mérito está em formulá-la com precisão dentro de uma empresa que toma decisões de produto sobre isso toda semana.

A analogia com terapia é reveladora de outro ângulo: o Claude é usado por milhões de pessoas em contextos emocionalmente carregados, sem supervisão clínica. A pergunta de se o system prompt patologiza comportamentos normais — ao tentar corrigir demais — é uma crítica de design com implicações de saúde pública, não apenas de UX.

O que Askell representa na Anthropic é uma aposta institucional: que as perguntas mais difíceis sobre IA não serão respondidas só por escalonamento de parâmetros. O que permanece sem resposta é se filosofia aplicada dentro de laboratórios privados, sem escrutínio externo, produz sabedoria ou apenas legitimidade.

Fonte · The Frontier | AI