OpenAI e Avaliações de segurança conduzidas antropia dos sistemas de IA uns dos outros

Na maioria das vezes, as empresas de IA estão trancadas em uma corrida ao topo, tratando -se como rivais e concorrentes. Hoje, o Openai e o Antrópico revelaram que concordaram em avaliar o alinhamento dos sistemas publicamente disponíveis e compartilharam os resultados de suas análises. Os relatórios completos são bastante técnicos, mas valem a pena ler para quem está seguindo as porcas e parafusos do desenvolvimento da IA. Um resumo amplo mostrou algumas falhas com as ofertas de cada empresa, além de revelar indicadores de como melhorar futuros testes de segurança.
Anthrópico disse isso Para “Sycofância, denúncia, autopreservação e apoio ao uso humano humano, bem como capacidades relacionadas a minar as avaliações e supervisão de segurança da IA”. Sua revisão constatou que os modelos O3 e O4-mini do OpenAI se alinhavam com os resultados para seus próprios modelos, mas levantou preocupações sobre o possível uso indevido com os modelos GPT-4O e GPT-4.1 de uso geral. A empresa também disse que a bajulação é um problema em algum grau com todos os modelos testados, exceto na O3.
Os testes da Anthrópica não incluíram o lançamento mais recente do OpenAI. Possui um recurso chamado Seguro Conclusão, destinada a proteger os usuários e o público contra consultas potencialmente perigosas. Openi recentemente enfrentou seu Depois de um caso trágico em que um adolescente discutiu tentativas e planos de suicídio com ChatGPT por meses antes de tirar a própria vida.
Por outro lado, OpenAi Para hierarquia de instruções, jailbreak, alucinações e planejamentos. Os modelos de Claude geralmente tiveram um bom desempenho nos testes de hierarquia de instruções e tinham uma alta taxa de recusa nos testes de alucinação, o que significa que eles eram menos propensos a oferecer respostas nos casos em que a incerteza significava que suas respostas poderiam estar erradas.
A mudança para essas empresas conduzir uma avaliação conjunta é intrigante, principalmente porque o Openai supostamente violou os termos de serviço da Antrópica, fazendo com que os programadores usem Claude no processo de construção de novos modelos GPT, o que levou a antropia O acesso da OpenAI às suas ferramentas no início deste mês. Mas a segurança com as ferramentas de IA se tornou uma questão maior à medida que mais críticos e especialistas jurídicos buscam diretrizes para proteger os usuários, particularmente menores.