A América Latina tem sido o berço de agora literário globalmente popular e gêneros musicaisalimentos básicos como a batata e a inspiração por trás o conhecido Feliz refeição. Também poderia se tornar o berço de uma nova forma de IA.
Uma coalizão de instituições de pesquisa está trabalhando no que eles chamam Latamgpt – Uma ferramenta que pode levar em consideração as variações de idiomas da região, experiências culturais e “idiossincrasias”.
O objetivo é oferecer aos usuários uma espiada mais fiel e representação das Américas e do Caribe do que o de grandes modelos de idiomas (LLMs) que vieram principalmente de nós ou chinês empresas e foram amplamente treinadas em inglês.
“Queremos desenvolver nossas capacidades, encontrar soluções locais baseadas em IA e criar uma melhor compreensão dessas ferramentas na América Latina e sobre a América Latina”, disse Rodrigo Durán Rojas, diretor do Centro Nacional de Inteligência Artificial do Chile, que está coordenando o esforço.
Durán Rojas disse que, para fins gerais, o projeto terá dificuldade em competir com “modelos de arte com orçamentos multimilionários”, mas que “o que nosso modelo pode oferecer que outros não são uma perspectiva muito mais rica e representativa da América Latina e do Caribe”, seu povo e seus resultados.
Por exemplo, Durán Rojas disse que os testes iniciais mostraram que o LATAMGPT tem resultados muito melhores quando consultado sobre a história da América do Sul e que o mesmo é esperado para quando o LLM for solicitado a, digamos, escrever um poema no estilo dos autores locais ou fornecer uma visão geral da política de educação regional.
Existem mais de 30 instituições envolvidas no desenvolvimento de LATAMGPT de países do Hemisfério, e os colaboradores incluem latinos nos EUA, como Freddy Vilches Menesesprofessor associado de estudos hispânicos no Lewis & Clark College, em Oregon. Isso, ele disse, é reconhecer como “as experiências latinas e latino -americanas são uma bolsa cultural que vai além da geografia”.
“Existem elementos da América Latina no Oregon, na Califórnia, no Texas”, disse Vilches Meneses. “Queremos ter certeza de incorporar essa experiência latina também.”
A LatamGPT, que visa lançar sua primeira versão disponível ao público por volta de junho, foi anunciada no mês passado após um compromisso regional feito durante um cume na inteligência artificial no Uruguai, focar no desenvolvimento tecnológico “ético, inclusivo e benéfico” para “promover e proteger os direitos humanos” e explorar as melhores políticas públicas possíveis para a governança da IA.
Esse impulso segue uma absorção crescente na região de avanços tecnológicos, como o uso de drones para monitorar o desmatamento Na floresta amazônica, o desenvolvimento de aplicativos para incentivar mais pessoas a continuar aprendendo Idiomas indígenasa criação de Algoritmos Para ajudar na busca por desapareceu à força pessoas ou a adoção de Blockchain mecanismos para preservar documentos históricos da ditadura passada ações.
Alguns desses documentos preservados agora estão sendo usados como fontes para treinar o LATAMGPT, juntamente com trabalhos, registros e registros que instituições como bibliotecas e arquivos nacionais disponibilizaram especificamente para o projeto. Durán Rojas disse que isso dá ao modelo mais nuances e largura localizada do que os dados gerais da Internet que outros sistemas tendem a usar.
“O LATAMGPT terá mais contexto do que os outros idiomas modelo e, portanto, deve alucinar muito menos” quando se trata de seus casos de uso, disse Durán Rojas. A alucinação é o que os pesquisadores de IA chamam quando um modelo aparentemente compõe uma resposta incorreta ou falsa, embora seja apresentada como factual.
Até agora, o conjunto de dados do projeto possui mais de 8 terabytes de informação para que o modelo possa ser executado em cerca de 55 bilhões de parâmetros (as variáveis com as quais um LLM produz uma saída de previsão, como neurônios que sinapse ou se conectam em um cérebro humano). Durán Rojas disse que é um pouco próximo do que a primeira versão pública do ChatGPT tinha quando o Openai o lançou no outono de 2022.
Os desafios de diversos dialetos e gramática complexa
O ChatGPT e outros modelos como o Gemini do Google também procuraram nos últimos anos incluir um escopo mais amplo de dados para oferecer os programas em outros idiomas que não o inglês e com “localizações” – como o LLM que sabe responder no sistema métrico quando relevante ou para entender idiotas.
Essas empresas reconhecem a importância de expandir essa oferta. Hyunjeong Choe, diretor de engenharia e internacionalização dos aplicativos Gemini do Google, disse que é “uma experiência dedicada” que pode ser “essencial para a relevância e sensibilidade cultural”.
Mas eles também reconhecem que é um empreendimento particularmente complexo, pois a maioria dos dados de treinamento disponível para eles é em inglês. “Os meandros de diferentes idiomas podem representar um obstáculo significativo para todos os modelos de IA. … idiomas com gramática complexa, dialetos diversos ou recursos digitais limitados podem ser mais difíceis de treinar”, disse Choe.
A LatamGPT, por meio de suas redes institucionais com bibliotecas e arquivos, contribuiu um pouco esse problema – mas não inteiramente. Durán Rojas disse que eles ainda estão lutando para incorporar idiomas indígenas falados por milhões na região porque a documentação por escrito não está tão amplamente disponível.
Mas eles ainda pretendem tentar, pois aperfeiçoam continuamente seu modelo – embora enfatizem a importância da colaboração.
“A qualidade e os atributos dos resultados que podemos obter dependerão de nós, pois os latino -americanos se unindo para contribuir o máximo que pudermos”, disse Vilches Meneses, professor de Lewis & Clark.
Atualmente, com a data de lançamento de junho, o LATAMGPT ainda está recebendo dados, pois os colaboradores fazem check -in regularmente com perguntas específicas para compará -los em comparação com outros modelos disponíveis.
Entre as perguntas que eles estão testando estão as consultas sobre os muitos nomes e termos diferentes usados na região para uma palavra específica como “carro” ou um pedido para que o GPT faça um gráfico de comparação de como os países da região responderam à imigração em massa de Lugares como a Venezuela.
Um grande objetivo do LATAMGPT é se familiarizar com esses avanços tecnológicos para que possam ser incluídos em políticas e regulamentos públicos, de acordo com Durán Rojas.
Para isso, a criação da rede transcontinental para ajudar a desenvolver o projeto é fundamental, e por Durán Rojas provavelmente permanecerá assim.
“O aspecto mais significativo, o maior legado, é essa interconexão que encontramos para fortalecer e desenvolver soluções baseadas em IA”, diz ele. “O modelo, quero dizer, é ótimo que estamos fazendo isso, mas a colaboração – é isso que mais impactará a maneira como construímos as coisas daqui para frente”.
E com isso há uma oportunidade crescente de oferecer mais contribuições com um toque latino.
“Na sua base, isso está criando algo da América Latina para a América Latina e para o mundo, como prova para nós mesmos e para os outros que também podemos produzir de alta tecnologia”, disse Vilches Meneses, “e que podemos contribuir para o conhecimento da inteligência artificial, enquanto ainda emprega nossa inteligência social e cultural”.
Uma versão anterior desta história foi publicada pela Noticias Telemundo.