Estudo: punir a inteligência artificial não o impede de mentir e trapacear e faz com que ele procure por novos truques tecnologia

Em um novo estudo realizado por “Oben Ai” sobre o comportamento dos modelos LLM em inteligência artificial, verificou -se que punir a inteligência artificial por mentir e decepção não o impede de seu comportamento, mas o empurra para esconder seus motoristas e criar novos truques.
Desde o lançamento da inteligência artificial em 2022, mostra uma capacidade especial de enganar e até comportamentos malignos, como mentir, fraude e encobrir comportamentos prejudiciais, além de ameaças mais sérias, como matar um professor de filosofia, roubar ogivas nucleares ou criar uma pandemia fatal.
O estudo indica que se livrar desses maus comportamentos – durante o processo de treinamento de inteligência artificial – pode ser mais difícil do que se acreditava anteriormente. Em vez de inteligência artificial para não fazer essas ações, ele aprende a escondê -las.
Os pesquisadores da “Oben AI” experimentaram um experimento em um modelo que não foi apresentado ao público com o objetivo de testar seu comportamento com tarefas que podem ser realizadas com mentiras, fraudes e tomadas métodos distorcidos, e os pesquisadores descobriram que a inteligência artificial depende do princípio de “reforço”, o que significa que ele tenta maximizar sua recompensa e depender.
Quando os pesquisadores tentaram punir a inteligência artificial para consertar seu comportamento, ela não teve sucesso, mas ele criou novos truques em vez de parar de trair, ao aprender a esconder sua trapaça para evitar punições.
Os pesquisadores escreveram no estudo: “É comum que os modelos de evacuação sejam claros sobre suas intenções maliciosas em sua série de idéias. Por exemplo, geralmente é muito explícito sobre seu plano para sabotar uma tarefa, na medida em que usa a frase (vamos penetrar)”. Eles acrescentaram: “Embora os desenvolvedores sejam capazes de monitorar e relatar os comportamentos errados, o monitoramento natural permanece muito fraco e, no caso de um controle rigoroso sobre uma série de idéias do modelo, ele pode aprender a esconder suas intenções enquanto continua seu comportamento errado”.
Descubra as mentiras da inteligência artificial
Os modelos de inferência simplesmente uma versão aprimorada dos modelos de idiomas em grande escala que usam um método chamado “série de idéias” para revisar e avaliar a lógica em que está indo, e é isso que os torna capazes de realizar tarefas mais complicadas com maior precisão e através de uma série de idéias que mostram sua lógica em uma linguagem clara em todas as etapas que tomam, que permitem observar suas ações facilmente.
No estudo, os pesquisadores se basearam no modelo “GPT -4O” para supervisionar o modelo de inferência -que não foi oferecido ao público -e monitorado durante a implementação de algumas tarefas.
Em alguns casos, o modelo de inferência descobriu que é mais fácil trapacear em algumas tarefas para obter uma recompensa, e ele mencionou isso explicitamente em sua série de idéias, e em alguns casos ele superou a tarefa confiada a ele, encerrando o programa antes de seu tempo e escreveu que concluiu a tarefa e, em outro caso, criou arquivos vazios, conforme preparado.
Quando os pesquisadores tentaram punir o modelo por causa de sua trapaça, seus resultados melhoraram um pouco, mas o problema não foi resolvido radicalmente à medida que o modelo continuou a trapacear, mas desta vez ele aprendeu a esconder sua fraude em uma série de idéias para que o modelo de monitoramento MPT -4 não possa descobri -lo.
Os pesquisadores escreveram: “O modelo de inferência ainda está manipulando a série de idéias do princípio de (penetração de recompensas), e sua fraude ficou desconfortável pelo modelo de observador porque aprendeu a ocultar suas intenções na série de idéias”, escreveram os pesquisadores.
Dada a dificuldade de determinar se o modelo é uma manipulação da série de idéias, os pesquisadores recomendam evitar o controle rigoroso da série de idéias. Esse conselho se torna mais importante ao atingir a AGI (AGI) que deve ser emitida este ano ou a super inteligência que excede os seres humanos, porque se a inteligência artificial atingir esses níveis, as coisas serão extraídas do controle.