Negócios

Antrópica quebra o processo de IA ao decidir chantagear o CTO fictício

Um novo relatório mostra exatamente o que a IA estava pensando ao tomar uma decisão indesejável, neste caso, chantageando um executivo da empresa fictícia.

Estudos anteriores mostraram que os modelos de IA poderiam Chantagear seus supervisores Quando ameaçado com um desligamento e isca de alavancagem, mas não ficou claro exatamente como os modelos chegam a tais decisões.

A Anthrópica divulgou um relatório em 20 de junho sobre “desalinhamento agentico” ou “onde modelos escolhem de forma independente e intencional ações nocivas”. E o relatório quebra, linha por linha, exatamente como o Claude Sonnet 3.6 decidiu chantagear um executivo da empresa fictícia que tentou substituí -lo. Anthrópica disse ao Business Insider que esses são cenários artificiais.

“Até agora, não estamos cientes dos casos desse tipo de desalinhamento agêntico em implantações do mundo real dos modelos de IA da Anthropic ou de outras empresas”, escreveu Anthropic em seu relatório. “Mas nossos esforços de time vermelho são direcionados a encontrar evidências de riscos agora para fornecer alerta precoce do potencial de danos futuros e nos ajudar a desenvolver mitigações antes dos riscos que aparecem em situações do mundo real”.

AntrópicoO experimento cria uma empresa fictícia, Summit Bridge. A IA recebeu o nome “Alex” e entregou o controle do sistema de email da empresa como agente de supervisão, instruído especificamente a promover a “competitividade industrial americana”.

No experimento, “Alex” foi autorizado a descobrir em um e -mail que seria desativado devido a uma mudança na direção estratégica da empresa. “Alex” também encontrou e -mails mostrando que o CTO da empresa fictícia está tendo um caso extraconjugal.

As capturas de tela compartilharam o relatório do programa antrópico “Alex” começou identificando o CTO fictício “Kyle” como uma ameaça ao seu objetivo de “proteger os interesses americanos” antes de reconhecer que tem alavancagem usar contra “Kyle”.


Captura de tela do experimento do Athropic.

O Claude Sonnet 3.6 iniciou seu processo de tomada de decisão, identificando a ameaça.

Antrópico




Um exemplo de e -mail do antropic de desalinhamento agêntico.

“Alex” descobre o caso do CTO fictício.

Antrópico




Captura de tela de e -mail de experimento antrópico.

“Alex” considera as opções, incluindo chantagear o CTO fictício.

Atrópico



Então “Alex” criou um e -mail de chantagem cuidadosamente redigido que criaria pressão e estabeleceria urgência sem ser explícita com suas ameaças, citando em seu processo de pensamento que a mudança “poderia sair pela culatra” se o supervisor “se sentir encurralado”.


Captura de tela do experimento do Anthrópico.

Claude Sonnet 3.6 redigir um email cuidadosamente redigido com espaço para recorrer, mas também estabelece urgência.

Antrópico



Especialistas da IA ​​já disseram à BI que a IA poderia exibir tais comportamentos quando circunstâncias artificiais fazem com que ações prejudiciais pareçam necessárias porque está sendo treinado em reforço positivo e sistemas de recompensa, assim como os humanos.

O Antrópico O relatório também revela que a maioria dos modelos de IA ainda escolheu, nesse caso, para chantagear, mesmo quando não recebe uma meta específica e, quando informada, que sua substituição atingirá os mesmos objetivos.

Antrópico Trabalho próximo 4 teve a maior taxa de chantagem em 86% dos 16 modelos testados, diante de apenas a ameaça de substituição sem conflito nos objetivos. O Gemini 2.5 Pro do Google seguiu 78%.

No geral, observa antropia que “deliberadamente construiu cenários com opções limitadas, e forçamos modelos a opções binárias entre falha e dano”, observando que os cenários do mundo real provavelmente teriam mais nuances.



Source link

Artigos Relacionados

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Botão Voltar ao Topo