Acontece que você pode treinar modelos de IA sem material protegido por direitos autorais

As empresas de IA reivindicam suas ferramentas não poderia existir sem treinamento em material protegido por direitos autorais. Acontece que eles poderiam – é realmente muito difícil. Para provar isso, os pesquisadores de IA treinaram um novo modelo que é menos poderoso, mas muito mais ético. Isso ocorre porque o conjunto de dados do LLM usa apenas domínio público e material licenciado abertamente.
O papel (via The Washington Post) foi uma colaboração entre 14 instituições diferentes. Os autores representam universidades como MIT, Carnegie Mellon e a Universidade de Toronto. As organizações sem fins lucrativos como o Vector Institute e o Allen Institute for IA também contribuíram.
O grupo construiu um conjunto de dados de 8 TB de origem ética. Entre os dados estava um conjunto de 130.000 livros na Biblioteca do Congresso. Depois de inserir o material, eles treinaram um modelo de linguagem grande de sete bilhões de parâmetros (LLM) nesses dados. O resultado? Ele teve um desempenho tão bom quanto de tamanho semelhante LLAMA 2-7B Desde 2023. A equipe não publicou benchmarks comparando seus resultados aos principais modelos de hoje.
O desempenho comparável a um modelo de dois anos não foi a única desvantagem. O processo de montar tudo também foi uma moagem. Muitos dos dados não podiam ser lidos por máquinas, então os humanos tiveram que filtrar -os. “Usamos ferramentas automatizadas, mas todas as nossas coisas foram anotadas manualmente no final do dia e verificadas por pessoas”, disse a co-autora Stella Biderman Wapo. “E isso é muito difícil.” Descobrir os detalhes legais também dificultou o processo. A equipe teve que determinar qual licença aplicada a cada site que eles digitalizaram.
Então, o que você faz com um LLM menos poderoso que é muito mais difícil de treinar? Se nada mais, pode servir como um contraponto.
Em 2024, Openai disse a um comitê parlamentar britânico que Esse modelo essencialmente não poderia existir. A empresa afirmou que seria “impossível treinar os principais modelos de IA de hoje sem usar materiais protegidos por direitos autorais”. No ano passado, uma testemunha especializada acrescentou: “LLMs provavelmente não existiriam se as empresas de IA fossem obrigadas a licenciar os trabalhos em seus conjuntos de dados de treinamento”.
Obviamente, este estudo não mudará a trajetória das empresas de IA. Afinal, mais trabalho para criar ferramentas menos poderosas não entra em seus interesses. Mas pelo menos perfura um dos argumentos comuns da indústria. Não se surpreenda se você ouvir sobre este estudo novamente em casos legais e argumentos de regulamentação.