Cloudflare abre guerra aos bots de IA e cria “botão rápido” para bloquear acesso aos sites por scrappers e crawlers

5 jul 2024 10:27

Este artigo tem mais de um ano

O lançamento do novo recurso da Cloudflare pretende bloquear a entrada de bots de IA usados no treino de modelos e na execução de inferências nas plataformas dos criadores alojados nos serviços da empresa.

O novo “botão rápido” da Cloudflare para bloquear todos os bots de IA está disponível para todos os clientes, incluindo os gratuitos. Para o ativar basta navegar até à secção Segurança > bots no painel de controlo do serviço da empresa e clicar no botão de alternância denominado “AI Scrapers and Crawlers”.

A Cloudflare diz que a ferramenta será constantemente atualizada, à medida que são encontradas novas impressões digitais de bots ofensivos, identificados como scrappers e crawlers para treino de modelos.

O lançamento deste “botão rápido” para bloquear a entrada de bots de IA dá continuidade às iniciativas da Cloudflare na proteção dos seus clientes. Em setembro de 2023, a empresa criou uma solução para os clientes escolherem as categorias de bots que podem ou não aceder aos seus sites, incluindo crawlers de IA.

Os bots que respeitam o robots.txt não usam conteúdo não-licenciado para treinar os seus modelos ou executar inferências com aplicações Retrieval-augmented generation (RAG) usando dados do site.

Um ficheiro robots.txt contém instruções que dizem aos bots quais as páginas Web a que podem ou não aceder, explica a Cloudflare. A RAG é uma técnica para melhorar a precisão e a fiabilidade dos modelos de IA generativa com factos obtidos a partir de fontes externas.

Segundo uma nota de imprensa da Cloudflare, algumas empresas de IA identificam claramente os seus bots, mas nem todas atuam com transparência.

A Cloudflare afirma que os seus clientes optam predominantemente por bloquear os bots de IA, mesmo que sigam as regras. Para a companhia é claro “que os clientes não querem bots de IA a visitar os seus sites, em particular aqueles que o fazem com desonestidade”.

Clique nas imagens para ver dados recolhidos pela Cloudflare sobre a atividade de bots:

A polémica está instalada quanto à moralidade dos caminhos usados pelas empresas de AI para recolher dados para o seu treino. Por exemplo, a Reddit anunciou que vai dar acesso a conversas e comentários em tempo real à OpenAI. Outro caso é o da Sony que avisou mais de 700 empresas que os seus conteúdos só podem ser usados em sistemas de IA com consentimento expresso. Entretanto, Scarlett Johansson alegou que a OpenAI imitou a sua voz para seu novo assistente pessoal sem o seu consentimento.

Uma reportagem recente da Wired revela que Amazon está a investigar se os bots que trabalham em nome Perplexity, um cliente da AWS, têm rastreado sítios Web, incluindo sítios de notícias, e reproduzido o seu conteúdo sem o devido crédito ou autorização.

Os clientes cloud da Amazon têm de obedecer ao robots.txt, o que alegadamente não terá sido respeitado. Aravind Srinivas, diretor executivo da empresa de IA, negou que a sua empresa estivesse a ignorar o ficheiro, embora tenha admitido que os bots de terceiros utilizados pela Perplexity foram os que foram observados a recolher páginas contra a vontade dos webmasters, explica a reportagem da Wired.

As empresas que estão a desenvolver grandes modelos de IA têm partilhado informação e declarações de que estar a trabalhar com transparência. Em agosto, a OpenAI publicou orientações sobre como bloquear o seu rastreador GPTbot utilizando uma diretiva robots.txt, presumivelmente consciente da preocupação com a possibilidade de o conteúdo ser extraído e utilizado para treino de IA sem consentimento.

A Google adotou medidas semelhantes no mês seguinte, altura em que a Cloudflare começou a oferecer o seu robots.txt.

Em destaque

Últimas

Casa dos Bits · How To Tek · 26 nov 2025 19:44

Acha que a Google "ouve" o que diz para lhe mostrar anúncios? Não está totalmente errado. Veja como o impedir

por Gustavo Dias
Casa dos Bits · Opinião · 26 nov 2025 18:48

A ilusão da IA isolada: como o cérebro necessita de um corpo
Casa dos Bits · Equipamentos · 26 nov 2025 17:38

ZTE está a reforçar aposta em Portugal e quer alargar gama de smartphones Nubia

por Fátima Caçador
Casa dos Bits · Telecomunicações · 26 nov 2025 16:50

Preços das telecomunicações baixam em outubro. Digi continua a liderar ofertas mais baratas
Casa dos Bits · Ciência · 26 nov 2025 15:30

Satélite europeu Sentinel-1D já começou a observar a Terra e as primeiras imagens são impressionantes

por Francisca Andrade
Casa dos Bits · Multimédia · 26 nov 2025 14:54

Frigoríficos e máquinas de lavar e secar: Chamam-se Mijia e são os novos eletrodomésticos da Xiaomi em Portugal

por Gustavo Dias

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Cloudflare abre guerra aos bots de IA e cria “botão rápido” para bloquear acesso aos sites por scrappers e crawlers

Clique nas imagens para ver dados recolhidos pela Cloudflare sobre a atividade de bots:

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Cloudflare abre guerra aos bots de IA e cria “botão rápido” para bloquear acesso aos sites por scrappers e crawlers

Quase metade do tráfego de internet é gerado por bots, a maioria maliciosos

Clique nas imagens para ver dados recolhidos pela Cloudflare sobre a atividade de bots:

Polémicas com treino de IA continuam: para o Reddit seguem com um acordo e na Sony com ameaças

Veja também

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Comentários

Veja também