Sarvam M: O modelo de IA da Índia impressiona em matemática e idiomas indianos; Veja como ele se compara a outros modelos de IA

0 lido 2 minutos

A startup da IA indiana Sarvam lançou seu principal modelo de idioma (LLM), Sarvam-M, um modelo de pesos abertos híbridos de 24 bilhões de parâmetros construídos em pequenos Mistral. Posicionada como uma alternativa versátil e relevante localmente na corrida global do LLM, o Sarvam-M recebeu elogios por seu forte desempenho em idiomas indianos, matemática e programação, mas não sem algum ceticismo de partes da comunidade tecnológica.

24 bilhões de parâmetros: o que isso significa?

Em termos simples, os parâmetros são as configurações internas que um modelo de idioma usa para processar e gerar texto. Pense neles como mostradores e interruptores que são sintonizados durante o treinamento para ajudar o modelo a entender gramática, contexto, fatos, raciocínio e muito mais. Quanto mais parâmetros um modelo tiver, mais sutil sua compreensão e saída podem ser, embora isso também dependa da qualidade dos dados e dos métodos de treinamento. O SARVAM-M, com 24 bilhões de parâmetros, cai na escala de médio a grande parte do LLMS. É significativamente maior que os modelos abertos, como o Mistral 7b, mas menores que os sistemas de fronteira como o GPT-4 do OpenAI ou o Gemini 1.5 Pro do Google.

Como o Sarvam-M se compara?

Aqui está uma rápida olhada em onde o Sarvam-M se encaixa entre os principais jogadores:

Modelo	Parâmetros	Pontos fortes
Sarvam-mm	24b	Línguas indianas, matemática, programação
Openai GPT-4	1.8T (estimado)	Raciocínio geral, codificação, multilíngue
Gêmeos 1.5 Pro	200b+	Capacidades multimodais, raciocínio avançado e desempenho de codificação
Ligue para 3 70B	70B	Raciocínio, codificação e tarefas multilíngues
Soneto Antrópico Claude 3,7	2T (estimado)	Resumo de alta qualidade, raciocínio e geração de conteúdo

O SARVAM-M está abaixo dos maiores modelos proprietários em termos de tamanho, mas supera seu peso nas tarefas específicas do domínio, principalmente a matemática e o raciocínio da língua indiana. No entanto, ele segue para trás em benchmarks centrados em inglês, como a MMLU, com uma lacuna de desempenho de cerca de 1%, destacando espaço para melhorias na generalização linguística mais ampla.

Como foi construído?

O SARVAM-M foi desenvolvido através de um processo de treinamento trifásico:

Ajuste fino supervisionado (SFT): instruções e respostas de alta qualidade foram usadas para moldar as habilidades de conversação e raciocínio do modelo, e minimizando o viés cultural.
Aprendizagem de reforço com recompensas verificáveis (RLVR): O modelo foi ensinado a seguir as instruções e a resolver problemas de lógica pesados usando recompensas cuidadosamente projetadas e loops de feedback.
Otimização de inferência: compressão avançada (quantização do FP8) e estratégias de decodificação ajudaram a melhorar a eficiência e a velocidade, embora os desafios de escalabilidade em ambientes de alta concorrência persistem.

Por que isso importa

O SARVAM-M suporta 10 idiomas indianos e pode lidar com questões de exame competitivo em hindi, tornando-o uma ferramenta promissora para os esforços de educação e tradução local. Ele alcançou uma melhoria de 86% em um teste que combina matemática e idiomas indianos romanizados, demonstrando um forte raciocínio multilíngue.

Apesar das críticas sobre se o modelo é “bom o suficiente” para competir globalmente, o lançamento da Sarvam-M aumentou significativamente o perfil dos esforços indianos no espaço da IA. O modelo agora é acessível ao público por meio da API da Sarvam e ao abraçar o rosto, incentivando os desenvolvedores a construir, testar e contribuir.

Embora possa não rivalizar com os LLMs mais avançados ainda, o SARVAM-M representa um passo significativo para o desenvolvimento de IA democratizando na Índia, especialmente para usuários que precisam de apoio além do inglês.

Source link

Sarah Ferreira 3 semanas atrás

0 lido 2 minutos

Sarvam M: O modelo de IA da Índia impressiona em matemática e idiomas indianos; Veja como ele se compara a outros modelos de IA

Sarah Ferreira

O governo coloca 42 milhões para que as crianças que precisam de atenção antecipada sejam recebidas em 45 dias

Jio Blackrock Fund Mutual: Jio Blackrock Mutual Fund lançado a plataforma Aladdin, os usuários receberão esse benefício

A mídia social agora principal fonte de notícias em nós, sugere pesquisas

’24 horas explosões, edifícios colapsam vozes …’ Estudantes indianos presos no Irã à sombra do medo, o Irã vs Guerra Irã Estudantes indianos assustados a embaixada indiana está ajudando, mas o perigo não acabou com o AMNR

Transplantes de células saudáveis, lentos e saudáveis, o desenvolvimento da doença de Huntington

O governo coloca 42 milhões para que as crianças que precisam de atenção antecipada sejam recebidas em 45 dias

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

Subscribe to our mailing list to get the new updates!

As células de levedura fornecem uma alternativa promissora à fabricação de DNase1

As projeções do festival de cinema de verão de Salamanca começam

Artigos Relacionados

O governo coloca 42 milhões para que as crianças que precisam de atenção antecipada sejam recebidas em 45 dias

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje