Negócios

Claude AI do Anthropic agora tem a capacidade de acabar com as conversas ‘angustiantes’

O mais recente recurso do Anthropic para dois de seus Claude AI Os modelos podem ser o começo do fim para o Ai Jailbreaking comunidade. A empresa anunciou em um Publique em seu site que os modelos Claude Opus 4 e 4.1 agora têm o poder de encerrar uma conversa com os usuários. De acordo com o Anthropic, esse recurso será usado apenas em “casos raros e extremos de interações persistentemente prejudiciais ou abusivas do usuário”.

Para esclarecer, o Antrópico disse que esses dois modelos de Claude podem sair de conversas prejudiciais, como “pedidos de usuários de conteúdo sexual envolvendo menores e tentativas de solicitar informações que permitiriam violência em larga escala ou atos de terror”. Com Trabalho próximo 4 E 4.1, esses modelos terão apenas uma conversa “como último recurso quando várias tentativas de redirecionamento falharão e a esperança de uma interação produtiva se esgotaram”, de acordo com Anthrópio. No entanto, as reivindicações antrópicas que a maioria dos usuários não experimenta Claude cortando uma conversa curta, mesmo quando se fala em tópicos altamente controversos, pois esse recurso será reservado para “casos de extrema borda”.

Exemplo de Claude do Anthropic, encerrando uma conversa

(Antrópico)

Nos cenários em que Claude termina um bate -papo, os usuários não podem mais enviar novas mensagens nessa conversa, mas podem iniciar uma nova imediatamente. A Anthropic acrescentou que, se uma conversa terminar, ela não afetará outros bate -papos e os usuários poderão voltar e editar ou tentar novamente mensagens anteriores para dirigir para uma rota de conversação diferente.

Para antrópicos, esse movimento faz parte de seu programa de pesquisa que estuda a idéia de bem -estar de IA. Embora a idéia de modelos de IA antropomorfizante continue sendo um debate em andamento, a empresa disse que a capacidade de sair de uma “interação potencialmente angustiante” era uma maneira de baixo custo de gerenciar riscos para o bem-estar da IA. O Antrópico ainda está experimentando esse recurso e incentiva seus usuários a fornecer feedback quando encontrarem esse cenário.

Source link

Artigos Relacionados

Botão Voltar ao Topo