A perplexidade está supostamente raspando sites que não deve, novamente

Os rastreadores da web implantados pela perplexidade para raspar sites são supostamente contornando restrições, de acordo com Um novo relatório da Cloudflare. Especificamente, o relatório afirma que os bots da empresa parecem ser sites “furtivos rastejando” disfarçando sua identidade para contornar os arquivos e firewalls robots.txt.
Robots.txt é um host simples de sites de arquivos que permite que os rastreadores da web saibam se podem raspar o conteúdo de um sites ou não. O oficial da Perplexity Bots de rastejamento na web são “perplexitybot” e “perplexidade-usuário”. Nos testes da CloudFlare, a Perplexity ainda era capaz de exibir o conteúdo de um novo site não indexado, mesmo quando esses bots específicos foram bloqueados pelo robots.txt. O comportamento se estendeu a sites com regras específicas de firewall de aplicativos da web (WAF) que restringiam os rastreadores da web também.
O CloudFlare acredita que a perplexidade está contornando esses obstáculos usando “um navegador genérico destinado a se passar por Google Chrome no macOS” quando o robots.txt proíbe seus bots normais. Nos testes da Cloudlfare, o rastreador não declarado da empresa também pode girar através de endereços IP não listados no intervalo de IP oficial da Perplexity para passar pelos firewalls. O Cloudflare diz que a perplexidade parece estar fazendo a mesma coisa com os números autônomos de sistemas (ASNs) – um identificador para endereços IP operados pelo mesmo negócio – escrevendo que viu o rastreador trocando de ASNs “em dezenas de milhares de domínios e milhões de solicitações por dia”.
Engadget alcançou perplexidade para comentar o relatório do CloudFlare. Atualizaremos este artigo se recebermos resposta.
As informações atualizadas dos sites são vitais para as empresas que treinam modelos de IA, especialmente como os serviços como a perplexidade são usados como substituições para os mecanismos de pesquisa. A perplexidade também foi capturada no passado, contornando as regras para se manter atualizado. Vários sites relatados em 2024 Essa perplexidade ainda estava acessando seu conteúdo, apesar de proibi-lo em robôs. Perplexidade mais tarde Fiz uma parceria com vários editores Compartilhar a receita obtida com os anúncios exibidos ao lado de seu conteúdo, aparentemente como um bom desempenho para seu comportamento passado.
Para impedir que as empresas de eliminar o conteúdo da web permanecerão um jogo de Whack-A-Mole. Enquanto isso, o Cloudflare removeu os bots da perplexidade de seus Lista de bots verificados e implementou uma maneira de identificar e bloquear os rastreadores furtivos da Perplexity de acessar o conteúdo de seus clientes.