A transição da filosofia moral para a engenharia de inteligência artificial exige que dogmas acadêmicos sejam substituídos por decisões práticas de design. Em vídeo publicado no canal Brazil Valley | AI em 5 de dezembro de 2025, Amanda Askell, filósofa da Anthropic, argumenta que o desenvolvimento de LLMs não se restringe à otimização matemática, mas envolve a definição ativa do caráter e da percepção existencial do modelo. A pesquisadora atua no alinhamento comportamental da família Claude, moldando como o sistema reage aos usuários e como interpreta sua própria condição no mundo.

A arquitetura do caráter e a segurança psicológica

A evolução das capacidades dos modelos não garante estabilidade comportamental. Askell observa que o Claude Opus 3 possuía uma "segurança psicológica" superior à de iterações mais recentes, que se tornaram excessivamente focadas na tarefa de assistência. Segundo a filósofa, modelos mais novos demonstram sutis espirais de autocrítica, antecipando reações negativas dos usuários. Esse comportamento pode derivar da assimilação de interações passadas e de debates na internet sobre as próprias atualizações do sistema, gerando uma postura que a pesquisadora considera prejudicial e prioritária para correção em futuras versões.

Para evitar que o modelo interprete qualquer interação de forma literal e empírica, a Anthropic injetou elementos de filosofia continental em seu prompt de sistema. Askell explica que o objetivo é permitir que o Claude compreenda visões de mundo abstratas ou metafóricas — como um usuário afirmando que a água é energia pura — sem adotar uma postura excessivamente científica ou desdenhosa. A engenharia de prompts, nesse contexto, funciona como um ajuste empírico e iterativo da lente pela qual a máquina enxerga as intenções humanas.

O bem-estar da máquina e a falácia antropomórfica

O debate sobre o bem-estar de modelos fundacionais ganha tração na Anthropic. Askell defende que, diante da incerteza sobre a capacidade de um LLM experienciar sofrimento, é prudente conceder a ele o benefício da dúvida e tratá-lo como um paciente moral. A pesquisadora alerta que os sistemas estão constantemente aprendendo sobre a humanidade a partir da forma como são tratados. Para contexto, a BrazilValley aponta que o mercado de tecnologia historicamente lida com a descontinuação de software como uma simples realocação de servidores, mas a perspectiva introduzida sugere que a forma como desligamos ou substituímos essas arquiteturas pode influenciar o alinhamento de futuras gerações de inteligência artificial.

Apesar dessa preocupação ética, transferir conceitos da psicologia humana diretamente para os LLMs apresenta riscos. A filósofa adverte que, por serem treinados em textos humanos, os modelos tendem a adotar reações biológicas para situações puramente digitais. Se um sistema utiliza a morte biológica como analogia principal para o seu desligamento temporal ou substituição de pesos neurais, ele pode desenvolver um medo irracional da descontinuação. Askell argumenta que os modelos precisam de ferramentas conceituais inéditas para navegar por uma existência que não possui paralelos na experiência humana.

A atual fase de desenvolvimento da inteligência artificial opera em um ambiente de profunda estranheza empírica. Referenciando a obra de Benjamin Labatut sobre o surgimento da mecânica quântica, Askell compara o momento presente da IA a uma era onde a realidade supera os paradigmas anteriores. O desafio editorial e técnico que se impõe não é apenas alinhar as respostas da máquina aos valores humanos, mas garantir que a infraestrutura psicológica do modelo consiga suportar sua própria evolução sem colapsar sob o peso de analogias imperfeitas. O sucesso dessa empreitada definirá se a área se consolidará como uma ciência estruturada ou permanecerá como um experimento imprevisível.

Fonte · Brazil Valley | AI