Claude não é um ótimo jogador de Pokémon, e tudo bem

Se Claude interpreta Pokémon Deve oferecer um vislumbre do futuro da IA, não é uma vitrine muito convincente. No mês passado e contando, Twitch assistiu ao chatbot da Anthropic lutar para jogar Pokémon vermelho. Em várias corridas, Claude não venceu o jogo de quase 30 anos. E, no entanto, para David Hershey, desenvolvedor principal do projeto, a vitrine foi um sucesso.
“Eu queria algum lugar onde eu pudesse entender como Claude lida com situações em que precisa trabalhar por um período muito longo”, explica Hershey em uma videochamada. Como parte de seu trabalho diário na Anthropic, Hershey trabalha na equipe de entrada no mercado, onde ajuda os clientes da empresa a criar seus próprios agentes (mais sobre os que em um momento). Ele começou a trabalhar em Claude interpreta Pokémon como um projeto paral 3,5 sonetos em junho passado.
Como você provavelmente pode adivinhar do nome, o projeto foi parcialmente inspirado por Twitch interpreta Pokémonque estreou em 2014 e viu 1,16 milhão de participar de uma tentativa de crowdsourcing de vencer Pokémon vermelho Usando apenas os visualizadores de entrada digitados na caixa de bate -papo do fluxo. Hershey não foi o primeiro funcionário antrópico a tentar moldar Claude em um campeão da Liga Pokémon, mas o projeto ganhou vida própria na época em que se envolveu.
Nos primeiros dias do projeto, foi um grande negócio quando Claude conseguiu deixar a casa de Red e encontrar o professor Oak. “Passei algum número ímpio de horas mexendo para fazer com que faça esse tipo de progresso”, diz Hershey. Ele atualizava seus colegas de trabalho sobre o progresso de Claude em um canal interno. Nesse ponto, a maior parte da empresa não estava prestando atenção, e não era algo que o antropia planejava compartilhar com o mundo.
No entanto, a Hershey criou o hábito de revisitar o projeto com cada novo lançamento de modelo principal da Anthropic, começando com a versão atualizada de Claude 3,5 sonetos no outono passado e novamente mais recentemente com 3.7 Sonnet. “É a maneira como vou ver ‘O que é esse novo modelo?’ ‘Como funciona?’ “O que posso aprender sobre isso?”, Explica Hershey. E com Claude 3,7 soneto, a versão de Claude jogando o jogo agora, foi a primeira vez “você podia apertar os olhos e ver sinais de vida”.
Dentro da esperança antrópica, Claude se tornou melhor em tentar estratégias diferentes e ajustar sua abordagem quando as coisas não foram conforme o plano. Com Pokémon Red, A empresa viu Claude fazer essas coisas em tempo real. “(Claude 3,7 sonetos) passa menos tempo preso em suposições”, diz Hershey. “Você ainda verá um palpite e depois gastará algumas horas acreditando que isso é verdade e tomando decisões idiotas, mas os modelos anteriores continuariam fazendo isso para sempre”.
E você pode, literalmente, ver Claude se desenvolver e correr com essas suposições. Cada movimento lento no jogo é precedido por um parágrafo de saída de texto da IA - “Eu encontrei um Zubat selvagem enquanto tentava navegar para (24,24). De acordo com minha estratégia, eu deveria fugir dessa batalha para economizar recursos” – seguido por um único botão pressionar. Em seguida, reavalia o estado do jogo e faz isso de novo.
Se você está assistindo Claude Fumble Pokémon vermelho Como fã do jogo, um modelo que gasta “menos tempo preso em suposições” parece menor, especialmente quando o chatbot frequentemente fica preso em áreas como a floresta viridiana, às vezes por dias, devido ao design de nível semelhante ao labirinto. No entanto, é um marco para o tipo de sistema de IA que o Claude 3.7 representa.
Como muitos sistemas recentes de IA Frontier, o Claude 3,7 sonetos é um modelo de raciocínio, o que significa que foi projetado para resolver problemas, dividindo -os em pedaços menores. “Muitos de nossos clientes se preocupam com a eficácia de Claude um agente”, explica Hershey. Para os não iniciados, Agentes ou AIs agênticos são sistemas projetados para planejar e realizar tarefas complicadas sem supervisão humana. No momento, a maioria das pessoas pensa na IA como uma caixa de bate -papo em branco esperando para responder a uma pergunta, mas os chatbots são apenas o rosto do consumidor da indústria; Os sistemas agênticos representam um passo incremental, mas importante em direção à promessa de inteligência geral artificial.
Nessa perspectiva, há algumas coisas que tornam Claude interpreta Pokémon interessante. Primeiro, há o fato surpreendente de Hershey delegou muita programação que tornou o projeto possível Agente de codificação do Antrópico incluindo uma sobreposição que permite a Claude entender Pokémon Red’s mundo do jogo.
Segundo, e mais importante, Claude não estava pré -tenenteado para jogar Pokémon vermelho. O chatbot conhece alguns fundamentos sobre o jogo, como o nome de cada líder da academia e a ordem em que o jogador deve vencê -los, mas não tem centenas de anos em conhecimento de jogo como alguns Sistemas de IA especializados. “Você pode jogar um modelo em um jogo sem preparação, sem orientação e ele pode aprender tudo em si”, diz ele. “Pretendo estar o mais próximo possível desse lado.”
Hershey teve que dar ajuda a Claude. Eu já mencionei a sobreposição que permite interpretar Pokémon Red’s interface. A arte do pixel é algo que todos os sistemas de IA lutam, e 3,7 sonetos não são expectativas. Como seres humanos, nossa imaginação faz um ótimo trabalho ao preencher os detalhes sugeridos por apenas alguns pixels. Além disso, Claude não “vê” o jeito que fazemos.
Se você assistir de perto, notará cada vez que mover o personagem do jogador, ele fará alguns insumos antes de reavaliar sua posição. Entre esses quadros, Claude não possui nenhuma entrada sensorial. Ele não pode ver a caminhada vermelha, nem “ouvir” quando suas entradas o fazem colidir com uma árvore ou algum outro obstáculo. A “visão ruim” de Claude é uma das principais razões pelas quais luta com o jogo; Na verdade, a Hershey teve que dar ao chatbot uma maneira de ler a memória do jogo, por isso era menos provável que fique confuso se isso interpretar mal a tela.
Se o objetivo do projeto fosse para Claude vencer Pokémon vermelhoIsso teria sido fácil. Hershey poderia ter programado uma rota pelo jogo para o chatbot seguir, mas nesse ponto tudo o que ele teria testando é o quão bem Claude segue um conjunto rígido de instruções. “Claude é muito bom nisso”, diz Hershey. “Eu sabia disso. Todos sabíamos disso.”
Em vez disso, ao deixar Claude por seus próprios dispositivos, o novo modelo mostrou que é melhor planejar, elaborar novas estratégias e, finalmente, tentar algo diferente quando suas suposições se mostram erradas. Um dos mais novas soluções Claude se desenvolveu durante sua terceira corrida pelo jogo foi intencionalmente fazer com que todo o seu Pokémon desmaie para que pudesse escapar do Monte.
Ainda assim, Claude pode ser muito melhor no planejamento de curto e longo prazo. No mesmo exemplo que acabei de mencionar, Claude excluiu todas as suas notas sobre o Monte após a reaparecimento em um centro de Pokémon próximo, acreditando incorretamente que havia navegado com sucesso na caverna. Uma de suas corridas mais promissoras terminou depois que Claude não reconheceu que precisava conversar com Bill para progredir no jogo. Ficou preso em um ciclo interminável de má tomada de decisão.
“Avançando, não sei o quão útil isso será internamente como uma referência. É possível que, com um pequeno e pequeno conjunto de habilidades, Claude fique um pouco melhor e vence o jogo, e então a referência não é tão interessante”, admite Hershey. “Também pode ser o caso de que ainda não entendi bem sobre o que tornará nosso próximo modelo bom e ainda estaremos aprendendo muito mais coisas incrementais ao longo do caminho”.
Quanto ao que acontece a seguir, Hershey diz que não tem uma estratégia de longo prazo para Claude interpreta Pokémon. “Passei tanto tempo – minha esposa dizia muito tempo – olhando para essa coisa”, diz ele, rindo. Também sinto que o Hershey não está pronto para fechar o livro sobre o projeto. “Eu imagino que sempre que um novo modelo for lançado, estarei tocando Pokémon com ele, e provavelmente mostrarei ao mundo isso também”.
Até então, antropia, após uma redefinição recente, continua a transmitir Claude toca Pokémon no Twitch. O projeto foi bem -sucedido o suficiente para inspirar um desenvolvedor independente para programar um Gêmeos toca Pokémon Transmita, e se eu tivesse que adivinhar, veremos mais imitadores em breve.
Este artigo apareceu originalmente em Engadget em https://www.engadget.com/ai/claude-isnt-a-great-pokemon-player-and-thats-okay-151522448.html?src=rss
Source link