Negócios

Uma armadilha de dados da AI captura a perplexidade que se repreende pelo Google

Se você quiser ter sucesso em AIUm bom hack seria se passar pelo Google. Você simplesmente não pode ser pego.

Isso é o que acabou de acontecer para perplexidadeUma startup que compete com o ChatGPT, o Google’s Gemini e outros serviços generativos de IA.

Dados de qualidade é crucial para o sucesso na IA, mas as empresas de tecnologia não querem pagar por isso, então rastejam a Web e raspam informações gratuitamente, geralmente sem permissão. Isso provocou uma reação por alguns criadores de conteúdo e outros interessados em preservar os incentivos que construíram a web.

Cloudflare e seu CEO, Matthew Prince, invadiram essa batalha com novos recursos que ajudam os sites a bloquear os rastreadores indesejados de AI Bot. O Cloudflare é uma empresa de infraestrutura, segurança e software que ajuda a executar cerca de 20% da Internet. Ele prospera quando a Web se sai bem, portanto, seu interesse em ajudar os sites a serem pagos pelo conteúdo.

Alguns clientes da CloudFlare reclamaram recentemente à empresa que a perplexidade estava evitando esses blocos e continuou a raspar e coletar dados sem permissão.

Então, o CloudFlare estabeleceu uma armadilha digital e pegou essa startup avermelhada, de acordo com um blog de segunda-feira descrevendo a escapada.

“Algumas empresas de IA supostamente ‘respeitáveis’ agem mais como hackers norte -coreanos”, escreveu Prince no X na segunda -feira. “Hora de citar, vergonha e bloqueá -los duro.”

A perplexidade não respondeu a um pedido de comentário.

The Bait: Honeytrap domínios e portas trancadas

Cloudflare criou sites totalmente novos e não publicados e os configurou com arquivos robots.txt Isso bloqueou explicitamente todos os rastreadores – incluindo os bots declarados da Perplexity, Perplexitybot e Usuador perplexidades. Esses sites de teste não tinham links públicos, entradas de mecanismo de pesquisa ou metadados que normalmente os tornariam descobertos.

No entanto, quando o CloudFlare consultou a IA da Perplexity com perguntas sobre esses sites específicos, o serviço da startup respondeu com informações detalhadas que só poderiam ter vindo dessas páginas restritas. A conclusão? A perplexidade havia acessado o conteúdo, apesar de ter sido claramente instruído a não.

A capa: como a perplexidade mascarou seu rastreamento

A perplexidade inicialmente rastejou esses sites usando sua string oficial-agente de usuário, cumprindo protocolos padrão. No entanto, Cloudflare disse que descobriu que, uma vez bloqueado, a perplexidade recorreu a táticas furtivas.

Cloudflare descobriu que a perplexidade começou a implantar rastreadores não declarados disfarçados como navegadores da web normais e enviando solicitações de endereços IP desconhecidos ou rotacionados e ASNs não oficiais, que são identificadores cruciais que ajudam a rotear o tráfego da Internet com eficiência.

Quando seus rastreadores oficiais foram bloqueados, a Perplexity também usou um navegador genérico projetado para representar o navegador Chrome do Google nos computadores Apple Mac. (O Business Insider perguntou ao Google se ele disse a Perplexity para parar de se passar por Chrome. O Google não respondeu).

De acordo com a Cloudflare, a perplexidade tem feito milhões de solicitações “furtivas” diariamente em dezenas de milhares de domínios da Web.

Esse comportamento não apenas violou os padrões da Web, mas também trai a confiança fundamental que sustenta o funcionamento da web aberta, explicou Cloudflare.

A comparação: como o OpenAi acerta

Para enfatizar como é o bom comportamento do bot, o CloudFlare comparou a conduta da Perplexity à dos rastreadores do Openai, que raspará dados para o desenvolvimento de modelos de AI do ChatGPT e gigante, como o próximo GPT-5.

Quando os bots do OpenAI encontraram um arquivo robots.txt ou um bloco semelhante, eles simplesmente recuaram. Sem contornar. Sem mascaramento. Sem rastreamento de backdoor, de acordo com os testes Cloudflare.

As consequências: des-verificação e bloqueio

Como resultado dessas descobertas, o Cloudflare reduziu a perplexidade como um bot verificado e lançou novas técnicas de detecção e bloqueio em sua rede.

A remoção de Cloudflare serve como um conto de advertência na corrida armamentista da IA. Enquanto a Web muda para um controle mais forte sobre o acesso e o uso de dados, os atores que desrespeitam essas normas em evolução podem se encontrar não apenas bloqueados, mas publicamente chamados.

Em uma época em que os sistemas de IA estão com fome de treinamento de dados, a operação de Sting da CloudFlare é um sinal para startups e jogadores estabelecidos: respeitar as regras da Web ou o risco de ser exposto.

Inscreva -se no boletim de memorando técnico da BI aqui. Entre em contato comigo por e -mail em abarr@businessinsider.com.



Source link

Artigos Relacionados

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Botão Voltar ao Topo