A Holland promove acordos com os editores para desenvolver seu estado ai

A Holanda marca um ponto de virada no desenvolvimento da inteligência artificial. Nesta quinta-feira, o governo holandês reconheceu que seu modelo de idioma estadual, GPT-NL, precisa de autorização expressa dos autores para usar seus textos no processo de treinamento. Um passo que pode redefinir as regras do jogo no setor de IA, especialmente na esfera pública.
O executivo holandês foi um dos primeiros a apostar em modelos de inteligência artificial promovidos do público, como uma alternativa para gigantes particulares e chineses: chatgpt, gemini ou Deepseek. Um caminho que logo após o governo espanhol seguiria com o Apresentação de AliaSeu projeto para “proteger o espanhol”. Ambos os modelos, como seus promotores garantem, treinaram com “dados de alta qualidade”. Mas agora a distância da marca Holanda.
“Ao contrário de alguns modelos internacionais que usam ‘uma cópia da Internet’ como material de treinamento, o GPT-NL coleta dados protegidos por direitos autorais de maneira cuidadosa e ética e recompensa aqueles que contribuem para seu conteúdo”, disse o governo holandês. Um posicionamento que deixa outros desenvolvimentos públicos que ainda não esclareceram como eles obtiveram os dados para alimentar seus modelos. Um deles é o Alia Espanhol, já sob a lupa das organizações que garantem a propriedade intelectual.
As especificações técnicas do projeto ALIA mencionam os conjuntos de dados usados para treinar o modelo. Entre as fontes mencionadas estão o Github, a Wikipedia, o Eurlex e também o Common Crawl, um banco de dados que despertou fortes críticas por coletar conteúdo maciço da Internet sem autorização. “Sim, o governo o usou e o reconhece publicamente em seus próprios sites”, disse o advogado especializado em propriedade intelectual Eva Moraga, durante uma aparição parlamentar em junho. “O rastreio comum coleta conteúdo sem autorização prévia”, acrescentou. Apesar disso, os responsáveis pelo modelo enfatizam que é “um repositório gerenciado por uma organização sem fins lucrativos, atualizada mensalmente e distribuída sob uma licença de domínio público CC0 1.0”.
Em janeiro de 2025, o CEDRO (Centro Espanhol de Direitos Repróficos) tornou o rastreamento comum eliminado o conteúdo editorial espanhol de seu repositório, reconhecendo assim que sua inclusão era pelo menos o problema. No entanto, até então, o treinamento – ou pelo menos preventivo – dos modelos já havia sido concluído. “Quem observa o vigia?” Vários senadores foram convidados.
Lutar por direitos autorais
Mais e mais usuários recorrem ao OpenAi ou Google Gemini para obter respostas imediatas. Por trás dessa interação aparentemente simples, existem centenas de regras matemáticas, modelos estatísticos e redes neurais treinadas com enormes volumes de texto.
Esses conjuntos de dados abrangem todos os tipos de questões, da saúde e ciência à economia e política. Os tokens – palavras de palavras ou marcas de pontuação – são extraídos de fontes originais por meio de técnicas de raspagem, ou seja, informações automatizadas na Internet. Na maioria dos casos, esse processo é realizado sem consentimento ou compensação para os autores do conteúdo.
A Holanda procura precisamente reverter essa lógica. “Chegamos a acordos para os editores receberem compensação adequada quando o modelo é lançado no mercado”, diz o executivo. “Isso garante a conformidade com os regulamentos europeus, incluindo a lei de inteligência artificial”, acrescentam eles.
O reconhecimento oficial do governo holandês acrescenta pressão aos países que promoveram modelos de inteligência artificial do público. A questão sobre a origem dos dados e o respeito aos direitos autorais está emergindo como um dos principais desafios regulatórios na implantação dessas tecnologias. Enquanto isso, o debate permanece aberto tanto nos parlamentos quanto entre os desenvolvedores.