OpenAI e Avaliações de segurança conduzidas antropia dos sistemas de IA uns dos outros

Sarah Ferreira Agosto 27, 2025

0 lido 2 minutos

Na maioria das vezes, as empresas de IA estão trancadas em uma corrida ao topo, tratando -se como rivais e concorrentes. Hoje, o Openai e o Antrópico revelaram que concordaram em avaliar o alinhamento dos sistemas publicamente disponíveis e compartilharam os resultados de suas análises. Os relatórios completos são bastante técnicos, mas valem a pena ler para quem está seguindo as porcas e parafusos do desenvolvimento da IA. Um resumo amplo mostrou algumas falhas com as ofertas de cada empresa, além de revelar indicadores de como melhorar futuros testes de segurança.

Anthrópico disse isso Para “Sycofância, denúncia, autopreservação e apoio ao uso humano humano, bem como capacidades relacionadas a minar as avaliações e supervisão de segurança da IA”. Sua revisão constatou que os modelos O3 e O4-mini do OpenAI se alinhavam com os resultados para seus próprios modelos, mas levantou preocupações sobre o possível uso indevido com os modelos GPT-4O e GPT-4.1 de uso geral. A empresa também disse que a bajulação é um problema em algum grau com todos os modelos testados, exceto na O3.

Os testes da Anthrópica não incluíram o lançamento mais recente do OpenAI. Possui um recurso chamado Seguro Conclusão, destinada a proteger os usuários e o público contra consultas potencialmente perigosas. Openi recentemente enfrentou seu Depois de um caso trágico em que um adolescente discutiu tentativas e planos de suicídio com ChatGPT por meses antes de tirar a própria vida.

Por outro lado, OpenAi Para hierarquia de instruções, jailbreak, alucinações e planejamentos. Os modelos de Claude geralmente tiveram um bom desempenho nos testes de hierarquia de instruções e tinham uma alta taxa de recusa nos testes de alucinação, o que significa que eles eram menos propensos a oferecer respostas nos casos em que a incerteza significava que suas respostas poderiam estar erradas.

A mudança para essas empresas conduzir uma avaliação conjunta é intrigante, principalmente porque o Openai supostamente violou os termos de serviço da Antrópica, fazendo com que os programadores usem Claude no processo de construção de novos modelos GPT, o que levou a antropia O acesso da OpenAI às suas ferramentas no início deste mês. Mas a segurança com as ferramentas de IA se tornou uma questão maior à medida que mais críticos e especialistas jurídicos buscam diretrizes para proteger os usuários, particularmente menores.

Source link

Sarah Ferreira Agosto 27, 2025

0 lido 2 minutos

OpenAI e Avaliações de segurança conduzidas antropia dos sistemas de IA uns dos outros

Sarah Ferreira

Novas instruções da ESC dão prioridades para a independência das mulheres na gravidez de alto risco

O que é SOS? A interrupção da Verizon deixa os clientes sem serviço

Novas instruções da ESC dão prioridades para a independência das mulheres na gravidez de alto risco

Business Insider Newsletters por e -mail: Inscreva -se agora

A economia da Índia cresce 7,8% no primeiro trimestre do EF26: O que está alimentando o aumento?

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

A segurança síria está indo de Idlib para a costa para perseguir “Restos de Assad” …

Subscribe to our mailing list to get the new updates!

Vídeo: Jambaji do exército indiano ..., 22 pessoal da CRPF e 3 cidadãos presos na barragem durante as inundações em Punjab

30 Naxalitas rendindo em Bijapur, 20 naxalitas foram recompensas por Rs 79 lakh

Artigos Relacionados

NÓS

8 m nos banheiros atacados: “Eles nos veem mais danos”

O que se sabe sobre as acusações de agressão sexual contra um padre de uma escola em La Moraleja: ele foi libertado

A ponte histórica de Salamanca em alerta para a repentina inundação do rio

Grátis .. a saia e cantando na abertura das noites do Ramadã no The Samer Theatre hoje

A segurança síria está indo de Idlib para a costa para perseguir “Restos de Assad” …