Sarvam M: O modelo de IA da Índia impressiona em matemática e idiomas indianos; Veja como ele se compara a outros modelos de IA

A startup da IA indiana Sarvam lançou seu principal modelo de idioma (LLM), Sarvam-M, um modelo de pesos abertos híbridos de 24 bilhões de parâmetros construídos em pequenos Mistral. Posicionada como uma alternativa versátil e relevante localmente na corrida global do LLM, o Sarvam-M recebeu elogios por seu forte desempenho em idiomas indianos, matemática e programação, mas não sem algum ceticismo de partes da comunidade tecnológica.
24 bilhões de parâmetros: o que isso significa?
Em termos simples, os parâmetros são as configurações internas que um modelo de idioma usa para processar e gerar texto. Pense neles como mostradores e interruptores que são sintonizados durante o treinamento para ajudar o modelo a entender gramática, contexto, fatos, raciocínio e muito mais. Quanto mais parâmetros um modelo tiver, mais sutil sua compreensão e saída podem ser, embora isso também dependa da qualidade dos dados e dos métodos de treinamento. O SARVAM-M, com 24 bilhões de parâmetros, cai na escala de médio a grande parte do LLMS. É significativamente maior que os modelos abertos, como o Mistral 7b, mas menores que os sistemas de fronteira como o GPT-4 do OpenAI ou o Gemini 1.5 Pro do Google.
Como o Sarvam-M se compara?
Aqui está uma rápida olhada em onde o Sarvam-M se encaixa entre os principais jogadores:
Modelo | Parâmetros | Pontos fortes |
---|---|---|
Sarvam-mm | 24b | Línguas indianas, matemática, programação |
Openai GPT-4 | 1.8T (estimado) | Raciocínio geral, codificação, multilíngue |
Gêmeos 1.5 Pro | 200b+ | Capacidades multimodais, raciocínio avançado e desempenho de codificação |
Ligue para 3 70B | 70B | Raciocínio, codificação e tarefas multilíngues |
Soneto Antrópico Claude 3,7 | 2T (estimado) | Resumo de alta qualidade, raciocínio e geração de conteúdo |
O SARVAM-M está abaixo dos maiores modelos proprietários em termos de tamanho, mas supera seu peso nas tarefas específicas do domínio, principalmente a matemática e o raciocínio da língua indiana. No entanto, ele segue para trás em benchmarks centrados em inglês, como a MMLU, com uma lacuna de desempenho de cerca de 1%, destacando espaço para melhorias na generalização linguística mais ampla.
Como foi construído?
O SARVAM-M foi desenvolvido através de um processo de treinamento trifásico:
- Ajuste fino supervisionado (SFT): instruções e respostas de alta qualidade foram usadas para moldar as habilidades de conversação e raciocínio do modelo, e minimizando o viés cultural.
- Aprendizagem de reforço com recompensas verificáveis (RLVR): O modelo foi ensinado a seguir as instruções e a resolver problemas de lógica pesados usando recompensas cuidadosamente projetadas e loops de feedback.
- Otimização de inferência: compressão avançada (quantização do FP8) e estratégias de decodificação ajudaram a melhorar a eficiência e a velocidade, embora os desafios de escalabilidade em ambientes de alta concorrência persistem.
Por que isso importa
O SARVAM-M suporta 10 idiomas indianos e pode lidar com questões de exame competitivo em hindi, tornando-o uma ferramenta promissora para os esforços de educação e tradução local. Ele alcançou uma melhoria de 86% em um teste que combina matemática e idiomas indianos romanizados, demonstrando um forte raciocínio multilíngue.
Apesar das críticas sobre se o modelo é “bom o suficiente” para competir globalmente, o lançamento da Sarvam-M aumentou significativamente o perfil dos esforços indianos no espaço da IA. O modelo agora é acessível ao público por meio da API da Sarvam e ao abraçar o rosto, incentivando os desenvolvedores a construir, testar e contribuir.
Embora possa não rivalizar com os LLMs mais avançados ainda, o SARVAM-M representa um passo significativo para o desenvolvimento de IA democratizando na Índia, especialmente para usuários que precisam de apoio além do inglês.