Negócios

Sarvam M: O modelo de IA da Índia impressiona em matemática e idiomas indianos; Veja como ele se compara a outros modelos de IA

A startup da IA ​​indiana Sarvam lançou seu principal modelo de idioma (LLM), Sarvam-M, um modelo de pesos abertos híbridos de 24 bilhões de parâmetros construídos em pequenos Mistral. Posicionada como uma alternativa versátil e relevante localmente na corrida global do LLM, o Sarvam-M recebeu elogios por seu forte desempenho em idiomas indianos, matemática e programação, mas não sem algum ceticismo de partes da comunidade tecnológica.

24 bilhões de parâmetros: o que isso significa?

Em termos simples, os parâmetros são as configurações internas que um modelo de idioma usa para processar e gerar texto. Pense neles como mostradores e interruptores que são sintonizados durante o treinamento para ajudar o modelo a entender gramática, contexto, fatos, raciocínio e muito mais. Quanto mais parâmetros um modelo tiver, mais sutil sua compreensão e saída podem ser, embora isso também dependa da qualidade dos dados e dos métodos de treinamento. O SARVAM-M, com 24 bilhões de parâmetros, cai na escala de médio a grande parte do LLMS. É significativamente maior que os modelos abertos, como o Mistral 7b, mas menores que os sistemas de fronteira como o GPT-4 do OpenAI ou o Gemini 1.5 Pro do Google.

Como o Sarvam-M se compara?

Aqui está uma rápida olhada em onde o Sarvam-M se encaixa entre os principais jogadores:

ModeloParâmetrosPontos fortes
Sarvam-mm24bLínguas indianas, matemática, programação
Openai GPT-41.8T (estimado)Raciocínio geral, codificação, multilíngue
Gêmeos 1.5 Pro200b+Capacidades multimodais, raciocínio avançado e desempenho de codificação
Ligue para 3 70B70BRaciocínio, codificação e tarefas multilíngues
Soneto Antrópico Claude 3,72T (estimado)Resumo de alta qualidade, raciocínio e geração de conteúdo

O SARVAM-M está abaixo dos maiores modelos proprietários em termos de tamanho, mas supera seu peso nas tarefas específicas do domínio, principalmente a matemática e o raciocínio da língua indiana. No entanto, ele segue para trás em benchmarks centrados em inglês, como a MMLU, com uma lacuna de desempenho de cerca de 1%, destacando espaço para melhorias na generalização linguística mais ampla.

Como foi construído?

O SARVAM-M foi desenvolvido através de um processo de treinamento trifásico:

  1. Ajuste fino supervisionado (SFT): instruções e respostas de alta qualidade foram usadas para moldar as habilidades de conversação e raciocínio do modelo, e minimizando o viés cultural.
  2. Aprendizagem de reforço com recompensas verificáveis ​​(RLVR): O modelo foi ensinado a seguir as instruções e a resolver problemas de lógica pesados ​​usando recompensas cuidadosamente projetadas e loops de feedback.
  3. Otimização de inferência: compressão avançada (quantização do FP8) e estratégias de decodificação ajudaram a melhorar a eficiência e a velocidade, embora os desafios de escalabilidade em ambientes de alta concorrência persistem.

Por que isso importa

O SARVAM-M suporta 10 idiomas indianos e pode lidar com questões de exame competitivo em hindi, tornando-o uma ferramenta promissora para os esforços de educação e tradução local. Ele alcançou uma melhoria de 86% em um teste que combina matemática e idiomas indianos romanizados, demonstrando um forte raciocínio multilíngue.

Apesar das críticas sobre se o modelo é “bom o suficiente” para competir globalmente, o lançamento da Sarvam-M aumentou significativamente o perfil dos esforços indianos no espaço da IA. O modelo agora é acessível ao público por meio da API da Sarvam e ao abraçar o rosto, incentivando os desenvolvedores a construir, testar e contribuir.

Embora possa não rivalizar com os LLMs mais avançados ainda, o SARVAM-M representa um passo significativo para o desenvolvimento de IA democratizando na Índia, especialmente para usuários que precisam de apoio além do inglês.

Source link

Artigos Relacionados

Botão Voltar ao Topo