O primeiro novo LLMS do Open-Weight do OpenAI em seis anos está aqui

Pela primeira vez desde GPT-2 em 2019Openai é Liberando novos modelos de idiomas grandes de peso aberto. É um marco importante para uma empresa que tem foi cada vez mais acusado de abandonar seu missão declarada original de “garantir a inteligência geral artificial beneficia toda a humanidade”. Agora, após vários atrasos para testes e refinamentos adicionais de segurança, GPT-OSS-120B e GPT-20B estão disponíveis para download de Abraçando o rosto.
Antes de prosseguir, vale a pena levar um momento para esclarecer o que exatamente o Openai está fazendo aqui. A empresa não está lançando novos modelos de código aberto que incluem o código subjacente e os dados que a empresa usou para treiná-los. Em vez disso, está compartilhando os pesos – ou seja, os valores numéricos que os modelos aprenderam a atribuir às entradas durante o treinamento – que informam os novos sistemas. De acordo com Benjamin C. LeeO professor de engenharia e ciência da computação na Universidade da Pensilvânia, modelos de peso aberto e de código aberto, servem a dois propósitos muito diferentes.
“Um modelo de peso aberto fornece os valores que foram aprendidos durante o treinamento de um modelo de idioma grande, e esses essencialmente permitem que você use o modelo e desenvolva-o. Você pode usar o modelo fora da caixa, ou pode redefini-lo ou ajustá-lo para uma aplicação específica, ajustando os pesos como quiser”, disse ele. Se os modelos comerciais forem uma caixa preta absoluta e um sistema de código aberto permite personalização e modificação completas, os AIs de peso aberto estão em algum lugar no meio.
O OpenAI não divulgou modelos de código aberto, provavelmente desde que um rival poderia usar os dados e o código de treinamento para engenharia reversa de sua tecnologia. “Um modelo de código aberto é mais do que apenas os pesos. Também incluiria potencialmente o código usado para executar o processo de treinamento”, disse Lee. E praticamente falando, a pessoa comum não usaria muito a partir de um modelo de código aberto, a menos que tivesse uma fazenda de GPUs NVIDIA de ponta subindo sua conta de eletricidade. (Eles seriam úteis para pesquisadores que desejam aprender mais sobre os dados que a empresa usou para treinar seus modelos, e há um punhado de modelos de código aberto por aí, como Nemo Mistral e Mistral Small 3.)
Com isso fora do caminho, a principal diferença entre o GPT-OSS-120B e o GPT-OSS-20B é quantos parâmetros cada um oferece. Se você não estiver familiarizado com o termo, os parâmetros são as configurações que um grande modelo de idioma pode ajustar para fornecer uma resposta. A nomeação é um pouco confusa aqui, mas o GPT-OSS-120B é um modelo de parâmetros de 117 bilhões, enquanto seu irmão menor é de 21 bilhões.
Na prática, isso significa que o GPT-OSS-120B requer hardware mais poderoso para ser executado, com o OpenAI recomendando uma única GPU de 80 GB para uso eficiente. A boa notícia é que a empresa diz que qualquer computador moderno com 16 GB de RAM pode executar o GPT-20B. Como resultado, você pode usar o modelo menor para fazer algo como código de vibração no seu próprio computador sem uma conexão com a Internet. Além do mais, o OpenAI está disponibilizando os modelos através do Apache 2.0 Licença, dando às pessoas uma grande flexibilidade para modificar os sistemas para suas necessidades.
Apesar de não ser um novo lançamento comercial, o OpenAI diz que os novos modelos são de várias maneiras comparáveis aos seus sistemas proprietários. A única limitação dos modelos OSS é que eles não oferecem entrada multimodal, o que significa que não podem processar imagens, vídeo e voz. Para esses recursos, você ainda precisará recorrer aos modelos comerciais da nuvem e do OpenAI, algo que ambos os novos sistemas de peso aberto podem ser configurados para fazer. Além disso, no entanto, eles oferecem muitos dos mesmos recursos, incluindo o raciocínio da cadeia de pensamentos e o uso de ferramentas. Isso significa que os modelos podem enfrentar problemas mais complexos, dividindo -os em etapas menores e, se precisarem de assistência adicional, sabem como usar os idiomas da Web e de codificação como o Python.
Além disso, o OpenAI treinou os modelos usando técnicas que a empresa empregou anteriormente no desenvolvimento de O3 e seus outros sistemas recentes de fronteira. Na codificação do nível da competição, o GPT-120B ganhou uma pontuação que é apenas um tom pior que o O3, o atual modelo de raciocínio de última geração da OpenAI, enquanto o GPT-20B pousou entre O3-mini e O4-mini. Obviamente, teremos que esperar mais testes do mundo real para ver como os dois novos modelos se comparam às ofertas comerciais da OpenAI e às de seus rivais.
O lançamento do GPT-OSS-120B e GPT-OSS-20B e a aparente disposição do OpenAI de dobrar os modelos de peso aberto ocorre depois que Mark Zuckerberg sinalizou Libere menos esses sistemas para o público. O primeiro de origem era anteriormente central para as mensagens de Zuckerberg sobre os esforços de sua empresa, com o CEO uma vez se reunindo sobre sistemas de fonte fechada “Foda-se isso”. Pelo menos entre a seita de entusiastas da tecnologia dispostos a mexer com o LLMS, o momento, acidental ou não, é um pouco embaraçoso para a Meta.
“Pode-se argumentar que modelos de peso aberto democratizam o acesso aos maiores e mais capazes de modelos para pessoas que não têm esses centers enormes e hiperescistas com muitas GPUs”, disse o professor Lee. “Ele permite que as pessoas usem os resultados ou produtos de um processo de treinamento de meses em um datacenter enorme sem ter que investir nessa infraestrutura por conta própria. Da perspectiva de alguém que deseja apenas um modelo realmente capaz para começar e, em seguida, deseja construir para alguma aplicação. Acho que os modelos de peso aberto podem ser realmente úteis”.
O OpenAI já está trabalhando com algumas organizações diferentes para implantar suas próprias versões desses modelos, incluindo Oh SuéciaO Centro Nacional de Apated da IA do país. Em um Briefing de imprensa do OpenAI realizado antes do anúncio de hoje, a equipe que trabalhou no GPT-OSS-120B e GPT-20B disse que vêem os dois modelos como um experimento; Quanto mais as pessoas os usarem, mais provável que o OpenAI seja lançar modelos adicionais de peso aberto no futuro.