A soberania digital tornou-se o centro de um novo debate sobre o desenvolvimento de inteligência artificial na Nova Zelândia. Enquanto gigantes da tecnologia utilizam dados coletados sem consentimento para treinar modelos globais, pesquisadores da Universidade de Waikato desenvolveram um sistema de texto-para-voz para a língua te reo Māori que mantém o controle da tecnologia nas mãos da comunidade indígena. Segundo reportagem do IEEE Spectrum, o projeto liderado por Te Taka Keegan busca interromper a dependência de infraestruturas externas.

O modelo não apenas atende a uma necessidade técnica de preservação, mas questiona a ética da extração de dados que alimenta os LLMs atuais. Ao contrário de ferramentas como o ChatGPT, que processam a língua Māori como um conjunto de dados genéricos, o novo sistema foca na precisão dialetal e na manutenção da propriedade intelectual pelos falantes.

O desafio da soberania linguística

Para a comunidade Māori, a língua é o principal veículo de transmissão de conhecimento cultural. A preocupação central dos acadêmicos é que o desenvolvimento de IA fora da Aotearoa — nome Māori para a Nova Zelândia — acabe por retirar o controle sobre a transferência desse conhecimento. O modelo de negócios das grandes empresas de tecnologia, que frequentemente raspam dados de comunidades minoritárias sem consulta prévia, é visto como uma ameaça à integridade do patrimônio imaterial indígena.

O projeto de Keegan e do engenheiro Kingsley Eng nasceu da premissa de que a tecnologia deve servir, primeiramente, aos interesses de quem a produz. Ao construir um sistema de voz sintética que permanece sob o controle dos falantes, eles estabelecem um precedente para que outras comunidades minoritárias possam replicar o modelo, garantindo que a tecnologia não atue como um agente de erosão cultural.

Mecanismos de adaptação e precisão

Línguas como o te reo Māori apresentam desafios técnicos específicos para modelos de voz, especialmente devido à importância da duração das vogais e à fonética distinta. O uso de modelos genéricos treinados majoritariamente em inglês frequentemente resulta em erros de pronúncia que alteram o significado das palavras. Para contornar isso, a equipe optou por uma abordagem baseada em fonemas, utilizando o software de código aberto eSpeak-NG adaptado para as nuances locais.

O processo de treinamento baseou-se em 7 horas e 45 minutos de gravações com a educadora Ngaringi Katipa, focando no dialeto Waikato-Maniapoto. A escolha técnica por arquiteturas como o Piper, capaz de rodar offline, reforça o compromisso com a soberania, permitindo que a tecnologia funcione independentemente de servidores ou interfaces controladas por corporações estrangeiras.

Implicações para o ecossistema global

A iniciativa neozelandesa coloca em xeque a narrativa de que o progresso em IA exige a centralização de dados. Para reguladores e desenvolvedores, o caso Māori demonstra que a viabilidade técnica não precisa vir acompanhada da perda de autonomia. A tensão entre o acesso universal a modelos de linguagem e a proteção de identidades culturais locais deve se tornar uma pauta crescente nas discussões sobre governança de dados.

No Brasil, onde a diversidade linguística e o patrimônio de línguas indígenas enfrentam desafios semelhantes de digitalização, o modelo de Waikato oferece uma referência importante. A questão não é apenas a viabilidade de criar modelos, mas quem detém o poder de decisão sobre como essas vozes e histórias são reproduzidas em sistemas digitais.

O futuro da preservação digital

O que permanece incerto é se modelos de soberania digital conseguirão escala suficiente para competir com a conveniência dos produtos oferecidos pelas grandes corporações. A tecnologia de voz sintética é apenas o começo, e a aplicação desses princípios para outras formas de dados culturais será o próximo passo.

A observação dos próximos desdobramentos deste projeto indicará se o setor de tecnologia adotará padrões mais rigorosos de consentimento e propriedade. O debate sobre quem controla o output da IA está apenas começando, e comunidades ao redor do mundo acompanham se a soberania digital será, de fato, respeitada.

Com reportagem de [Brazil Valley](/categoria/Inteligência Artificial)

Source · IEEE Spectrum — AI