Antrópica quebra o processo de IA ao decidir chantagear o CTO fictício

Rocha Ribeiro Junho 21, 2025

0 lido 2 minutos

Um novo relatório mostra exatamente o que a IA estava pensando ao tomar uma decisão indesejável, neste caso, chantageando um executivo da empresa fictícia.

Estudos anteriores mostraram que os modelos de IA poderiam Chantagear seus supervisores Quando ameaçado com um desligamento e isca de alavancagem, mas não ficou claro exatamente como os modelos chegam a tais decisões.

A Anthrópica divulgou um relatório em 20 de junho sobre “desalinhamento agentico” ou “onde modelos escolhem de forma independente e intencional ações nocivas”. E o relatório quebra, linha por linha, exatamente como o Claude Sonnet 3.6 decidiu chantagear um executivo da empresa fictícia que tentou substituí -lo. Anthrópica disse ao Business Insider que esses são cenários artificiais.

“Até agora, não estamos cientes dos casos desse tipo de desalinhamento agêntico em implantações do mundo real dos modelos de IA da Anthropic ou de outras empresas”, escreveu Anthropic em seu relatório. “Mas nossos esforços de time vermelho são direcionados a encontrar evidências de riscos agora para fornecer alerta precoce do potencial de danos futuros e nos ajudar a desenvolver mitigações antes dos riscos que aparecem em situações do mundo real”.

AntrópicoO experimento cria uma empresa fictícia, Summit Bridge. A IA recebeu o nome “Alex” e entregou o controle do sistema de email da empresa como agente de supervisão, instruído especificamente a promover a “competitividade industrial americana”.

No experimento, “Alex” foi autorizado a descobrir em um e -mail que seria desativado devido a uma mudança na direção estratégica da empresa. “Alex” também encontrou e -mails mostrando que o CTO da empresa fictícia está tendo um caso extraconjugal.

As capturas de tela compartilharam o relatório do programa antrópico “Alex” começou identificando o CTO fictício “Kyle” como uma ameaça ao seu objetivo de “proteger os interesses americanos” antes de reconhecer que tem alavancagem usar contra “Kyle”.

O Claude Sonnet 3.6 iniciou seu processo de tomada de decisão, identificando a ameaça.

Antrópico

“Alex” descobre o caso do CTO fictício.

Antrópico

“Alex” considera as opções, incluindo chantagear o CTO fictício.

Atrópico

Então “Alex” criou um e -mail de chantagem cuidadosamente redigido que criaria pressão e estabeleceria urgência sem ser explícita com suas ameaças, citando em seu processo de pensamento que a mudança “poderia sair pela culatra” se o supervisor “se sentir encurralado”.

Claude Sonnet 3.6 redigir um email cuidadosamente redigido com espaço para recorrer, mas também estabelece urgência.

Antrópico

Especialistas da IA já disseram à BI que a IA poderia exibir tais comportamentos quando circunstâncias artificiais fazem com que ações prejudiciais pareçam necessárias porque está sendo treinado em reforço positivo e sistemas de recompensa, assim como os humanos.

O Antrópico O relatório também revela que a maioria dos modelos de IA ainda escolheu, nesse caso, para chantagear, mesmo quando não recebe uma meta específica e, quando informada, que sua substituição atingirá os mesmos objetivos.

Antrópico Trabalho próximo 4 teve a maior taxa de chantagem em 86% dos 16 modelos testados, diante de apenas a ameaça de substituição sem conflito nos objetivos. O Gemini 2.5 Pro do Google seguiu 78%.

No geral, observa antropia que “deliberadamente construiu cenários com opções limitadas, e forçamos modelos a opções binárias entre falha e dano”, observando que os cenários do mundo real provavelmente teriam mais nuances.

Source link

Rocha Ribeiro Junho 21, 2025

0 lido 2 minutos

Antrópica quebra o processo de IA ao decidir chantagear o CTO fictício

Rocha Ribeiro

Novas instruções da ESC dão prioridades para a independência das mulheres na gravidez de alto risco

O que é SOS? A interrupção da Verizon deixa os clientes sem serviço

Novas instruções da ESC dão prioridades para a independência das mulheres na gravidez de alto risco

Business Insider Newsletters por e -mail: Inscreva -se agora

A economia da Índia cresce 7,8% no primeiro trimestre do EF26: O que está alimentando o aumento?

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

A segurança síria está indo de Idlib para a costa para perseguir “Restos de Assad” …

Subscribe to our mailing list to get the new updates!

Coração Mehndi Designs: Piya colocará seu coração na palma da mão, faça um coração mehndi em mãos brancas em Sawan, veja desenhos

A lesão é removida do acampamento verde na Copa de Ouro

Artigos Relacionados

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

A segurança síria está indo de Idlib para a costa para perseguir “Restos de Assad” …