A detecção de texto gerado por IA é, estruturalmente, um problema de assimetria: quem produz conteúdo sintético itera em ciclos de semanas; quem detecta corre atrás. Max Spero, cofundador da Pangram — empresa que desenvolveu inclusive uma extensão de navegador para identificação em tempo real —, articula esse dilema com precisão quando conversa com Charlie Warzel no podcast Galaxy Brain, do The Atlantic. O problema central não é técnico. É epistêmico: quando a maior parte do conteúdo na internet deixa de ter origem humana verificável, o custo de confiar em qualquer texto sobe para todos.

O que a detecção consegue e o que não consegue

Ferramentas como as da Pangram operam sobre padrões estatísticos — distribuição de tokens, previsibilidade lexical, ausência de certas irregularidades que caracterizam a escrita humana. O problema é que esses sinais são instáveis. Modelos mais recentes, treinados com feedback humano (RLHF), aprendem a imitar justamente as imperfeições que antes denunciavam a origem sintética. O resultado prático: a taxa de falsos positivos é alta o suficiente para tornar a detecção juridicamente e editorialmente problemática. Acusar um humano de ter usado IA com base em output de detector é um risco real — e já gerou casos documentados de estudantes penalizados incorretamente.

A comparação relevante aqui é com a detecção de plágio. O Turnitin levou anos para se tornar minimamente confiável, e mesmo assim opera em ambiente onde o corpus de comparação (textos humanos anteriores) é estável. Com IA generativa, o corpus de referência muda a cada novo modelo lançado — GPT-4, Claude 3, Gemini 1.5 — tornando qualquer calibração rapidamente obsoleta. Spero reconhece esse limite: a detecção funciona melhor como sinal probabilístico agregado do que como veredicto individual.

A degradação silenciosa da escrita humana

O argumento mais perturbador do episódio não é sobre detecção — é sobre contaminação. Se modelos de linguagem são treinados em dados da internet, e a internet passa a ser majoritariamente composta por texto sintético, os modelos futuros serão treinados em outputs de modelos anteriores. Pesquisadores da Universidade de Oxford e do MIT publicaram em 2023 estudos sobre esse fenômeno — chamado de model collapse — mostrando que a qualidade gerada se degrada iterativamente quando o sinal humano diminui no conjunto de treinamento.

Há uma segunda camada, menos técnica e mais cultural: escritores humanos que publicam regularmente online já começam a internalizar padrões de legibilidade que os algoritmos de plataforma favorecem — frases curtas, estrutura previsível, ausência de ambiguidade. A pressão seletiva dos feeds empurra a escrita humana na direção da escrita de máquina antes mesmo de qualquer uso deliberado de IA. Warzel toca nesse ponto ao discutir se humanos já escrevem como IA — uma inversão da pergunta original que expõe a fragilidade do critério estilístico como marcador de autenticidade.

O risco de longo prazo não é que leitores não consigam distinguir humano de máquina. É que deixem de tentar — e que a autenticidade passe a ser sinalizada por mecanismos externos ao texto: certificação, proveniência verificada, contexto institucional. Isso favorece produtores com infraestrutura para credenciar sua origem (grandes veículos, autores com audiência consolidada) e penaliza vozes novas sem histórico verificável.

O que fica sem resposta é a questão de governança: quem define os padrões de detecção, quem audita os detectores, e quem responsabiliza plataformas pelo volume de conteúdo sintético que circula sem marcação. A Pangram oferece uma ferramenta. A arquitetura de incentivos que tornaria seu uso sistemático ainda não existe.

Fonte · The Frontier | AI