O Genie 3 do Google DeepMind pode alterar dinamicamente o estado de seus mundos simulados

No início de dezembro, Google Deepmind Lançado Genie 2. A família Genie de sistemas de IA é o que é conhecido como modelos mundiais. Eles são capazes de gerar imagens como usuário – um humano ou, mais provavelmente, um agente de IA automatizado – se move pelo mundo em que o software está simulando. O vídeo resultante do modelo em ação pode parecer um videogame, mas o DeepMind sempre posicionou o Genie 2 como uma maneira de treinar outros sistemas de IA para ser melhor no que eles foram projetados para realizar. Com seu novo modelo Genie 3, que o laboratório anunciou na terça -feira, o DeepMind acredita que fez um sistema ainda melhor para treinar agentes de IA.
À primeira vista, o salto entre Genie 2 e 3 não é tão dramático quanto o que o modelo fez no ano passado. Com a Genie 2, o sistema da DeepMind tornou -se capaz de gerar mundos 3D e poderia reconstruir com precisão parte do ambiente, mesmo depois que o usuário ou um agente de IA o deixaram para explorar outras partes da cena gerada. A consistência ambiental era frequentemente uma fraqueza dos modelos mundiais anteriores. Por exemplo, Oasis de Decart sistema teve problemas para lembrar o layout do Minecraft níveis que gerariam.
Em comparação, os aprimoramentos oferecidos pelo Genie 3 parecem mais modestos, mas em um briefing da imprensa, o Google manteve antes do anúncio oficial de hoje, Shlomi Fruchter, diretor de pesquisa da DeepMind, e Jack Parker-Holder, cientista de pesquisa da DeepMind, argumentou que representam estampas importantes na estrada para a inteligência geral artificial.
Então, o que exatamente o Genie 3 faz melhor? Para começar, ele produz imagens a 720p, em vez de 360p como seu antecessor. Também é capaz de sustentar uma simulação “consistente” por mais tempo. Genie 2 tinha um limite teórico de até 60 segundos, mas na prática o modelo geralmente começa a alucinar muito mais cedo. Por outro lado, o DeepMind diz que o Genie 3 é capaz de correr por alguns minutos antes de começar a produzir artefatos.
Também novo no modelo é uma capacidade que o DeepMind chama de “eventos mundiais prontáveis”. O Genie 2 foi interativo na medida em que o usuário ou um agente de IA conseguiu inserir comandos de movimento e o modelo responderia depois de ter alguns momentos para gerar o próximo quadro. Genie 3 faz isso funciona em tempo real. Além disso, é possível ajustar a simulação com solicitações de texto que instruam Genie a alterar o estado do mundo que está gerando. Em uma demo Deepmind mostrou, o modelo foi instruído a inserir um rebanho de cervos em uma cena de uma pessoa esqui a uma montanha. O cervo não se moveu da maneira mais realista, mas essa é a característica assassina do Genie 3, diz Deepmind.
Como mencionado anteriormente, o laboratório imagina principalmente o modelo como uma ferramenta para treinar e avaliar os agentes de IA. O DeepMind diz que o Genie 3 pode ser usado para ensinar sistemas de IA para enfrentar cenários “e se” que não são cobertos por seu pré-treinamento. “Há muitas coisas que precisam acontecer antes que um modelo possa ser implantado no mundo real, mas o vemos como uma maneira de treinar modelos com mais eficiência e aumentar sua confiabilidade”, disse Fruchter, apontando, por exemplo, um cenário em que a Genie 3 poderia ser usada para ensinar um carro autocentado como evitar um pedestriano que passeie na frente.
Apesar das melhorias que o DeepMind fez para Genie, o laboratório reconhece que há muito trabalho a ser feito. Por exemplo, o modelo não pode gerar locais do mundo real com precisão perfeita e luta com a renderização de texto. Além disso, para Genie ser verdadeiramente útil, o DeepMind acredita que o modelo precisa ser capaz de sustentar um mundo simulado por horas, não minutos. Ainda assim, o laboratório sente que Genie está pronto para causar um impacto no mundo real.
“Já estamos no ponto em que você não usaria (Genie) como seu único ambiente de treinamento, mas você certamente pode encontrar coisas que não gostaria que os agentes fizessem, porque se eles agem inseguros em algumas configurações, mesmo que essas configurações não sejam perfeitas, ainda é bom saber”, disse Parker-Holder. “Você já pode ver para onde isso está indo. Isso ficará cada vez mais útil à medida que os modelos melhoram”.
Por enquanto, o Genie 3 não está disponível para o público em geral. No entanto, o DeepMind diz que está trabalhando para disponibilizar o modelo para testadores adicionais.