Acontece que você pode treinar modelos de IA sem material protegido por direitos autorais

0 lido 2 minutos

As empresas de IA reivindicam suas ferramentas não poderia existir sem treinamento em material protegido por direitos autorais. Acontece que eles poderiam – é realmente muito difícil. Para provar isso, os pesquisadores de IA treinaram um novo modelo que é menos poderoso, mas muito mais ético. Isso ocorre porque o conjunto de dados do LLM usa apenas domínio público e material licenciado abertamente.

O papel (via The Washington Post) foi uma colaboração entre 14 instituições diferentes. Os autores representam universidades como MIT, Carnegie Mellon e a Universidade de Toronto. As organizações sem fins lucrativos como o Vector Institute e o Allen Institute for IA também contribuíram.

O grupo construiu um conjunto de dados de 8 TB de origem ética. Entre os dados estava um conjunto de 130.000 livros na Biblioteca do Congresso. Depois de inserir o material, eles treinaram um modelo de linguagem grande de sete bilhões de parâmetros (LLM) nesses dados. O resultado? Ele teve um desempenho tão bom quanto de tamanho semelhante LLAMA 2-7B Desde 2023. A equipe não publicou benchmarks comparando seus resultados aos principais modelos de hoje.

O desempenho comparável a um modelo de dois anos não foi a única desvantagem. O processo de montar tudo também foi uma moagem. Muitos dos dados não podiam ser lidos por máquinas, então os humanos tiveram que filtrar -os. “Usamos ferramentas automatizadas, mas todas as nossas coisas foram anotadas manualmente no final do dia e verificadas por pessoas”, disse a co-autora Stella Biderman Wapo. “E isso é muito difícil.” Descobrir os detalhes legais também dificultou o processo. A equipe teve que determinar qual licença aplicada a cada site que eles digitalizaram.

Então, o que você faz com um LLM menos poderoso que é muito mais difícil de treinar? Se nada mais, pode servir como um contraponto.

Em 2024, Openai disse a um comitê parlamentar britânico que Esse modelo essencialmente não poderia existir. A empresa afirmou que seria “impossível treinar os principais modelos de IA de hoje sem usar materiais protegidos por direitos autorais”. No ano passado, uma testemunha especializada acrescentou: “LLMs provavelmente não existiriam se as empresas de IA fossem obrigadas a licenciar os trabalhos em seus conjuntos de dados de treinamento”.

Obviamente, este estudo não mudará a trajetória das empresas de IA. Afinal, mais trabalho para criar ferramentas menos poderosas não entra em seus interesses. Mas pelo menos perfura um dos argumentos comuns da indústria. Não se surpreenda se você ouvir sobre este estudo novamente em casos legais e argumentos de regulamentação.

Source link

Sarah Ferreira 3 dias atrás

0 lido 2 minutos

Acontece que você pode treinar modelos de IA sem material protegido por direitos autorais

Sarah Ferreira

Os dados do vírus corona assustaram, um total de 5755 casos no país, 4 mortos nas últimas 24 horas

Como os descontos de Rachel Reeves, essas 22 palavras de táxi devem torná -las notícias de política tremendo

O Quênia morre sob custódia após a prisão por postagem online

Moscou afirma que as forças russas chegaram à região de Dnipropetrovsk

Israel Katz ameaça usar ‘todas as medidas necessárias’ para impedir que Gaza Bound Auxi

Os dados do vírus corona assustaram, um total de 5755 casos no país, 4 mortos nas últimas 24 horas

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

Subscribe to our mailing list to get the new updates!

As ações da Tesla atingiram a briga de Trump-Musk explode

Splitsville para besties da Casa Branca

Artigos Relacionados

Os dados do vírus corona assustaram, um total de 5755 casos no país, 4 mortos nas últimas 24 horas

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje