O novo “botão rápido” da Cloudflare para bloquear todos os bots de IA está disponível para todos os clientes, incluindo os gratuitos. Para o ativar basta navegar até à secção Segurança > bots no painel de controlo do serviço da empresa e clicar no botão de alternância denominado “AI Scrapers and Crawlers”.

A Cloudflare diz que a ferramenta será constantemente atualizada, à medida que são encontradas novas impressões digitais de bots ofensivos, identificados como scrappers e crawlers para treino de modelos.

O lançamento deste “botão rápido” para bloquear a entrada de bots de IA dá continuidade às iniciativas da Cloudflare na proteção dos seus clientes. Em setembro de 2023, a empresa criou uma solução para os clientes escolherem as categorias de bots que podem ou não aceder aos seus sites, incluindo crawlers de IA.

Quase metade do tráfego de internet é gerado por bots, a maioria maliciosos
Quase metade do tráfego de internet é gerado por bots, a maioria maliciosos
Ver artigo

Os bots que respeitam o robots.txt não usam conteúdo não-licenciado para treinar os seus modelos ou executar inferências com aplicações Retrieval-augmented generation (RAG) usando dados do site.

Um ficheiro robots.txt contém instruções que dizem aos bots quais as páginas Web a que podem ou não aceder, explica a Cloudflare. A RAG é uma técnica para melhorar a precisão e a fiabilidade dos modelos de IA generativa com factos obtidos a partir de fontes externas.

Segundo uma nota de imprensa da Cloudflare, algumas empresas de IA identificam claramente os seus bots, mas nem todas atuam com transparência.

A Cloudflare afirma que os seus clientes optam predominantemente por bloquear os bots de IA, mesmo que sigam as regras. Para a companhia é claro “que os clientes não querem bots de IA a visitar os seus sites, em particular aqueles que o fazem com desonestidade”.

Clique nas imagens para ver dados recolhidos pela Cloudflare sobre a atividade de bots:

A polémica está instalada quanto à moralidade dos caminhos usados pelas empresas de AI para recolher dados para o seu treino. Por exemplo, a Reddit anunciou que vai dar acesso a conversas e comentários em tempo real à OpenAI. Outro caso é o da Sony que avisou mais de 700 empresas que os seus conteúdos só podem ser usados em sistemas de IA com consentimento expresso. Entretanto, Scarlett Johansson alegou que a OpenAI imitou a sua voz para seu novo assistente pessoal sem o seu consentimento.

Polémicas com treino de IA continuam: para o Reddit seguem com um acordo e na Sony com ameaças
Polémicas com treino de IA continuam: para o Reddit seguem com um acordo e na Sony com ameaças
Ver artigo

Uma reportagem recente da Wired revela que Amazon está a investigar se os bots que trabalham em nome Perplexity, um cliente da AWS, têm rastreado sítios Web, incluindo sítios de notícias, e reproduzido o seu conteúdo sem o devido crédito ou autorização.

Os clientes cloud da Amazon têm de obedecer ao robots.txt, o que alegadamente não terá sido respeitado. Aravind Srinivas, diretor executivo da empresa de IA, negou que a sua empresa estivesse a ignorar o ficheiro, embora tenha admitido que os bots de terceiros utilizados pela Perplexity foram os que foram observados a recolher páginas contra a vontade dos webmasters, explica a reportagem da Wired.

As empresas que estão a desenvolver grandes modelos de IA têm partilhado informação e declarações de que estar a trabalhar com transparência. Em agosto, a OpenAI publicou orientações sobre como bloquear o seu rastreador GPTbot utilizando uma diretiva robots.txt, presumivelmente consciente da preocupação com a possibilidade de o conteúdo ser extraído e utilizado para treino de IA sem consentimento.

A Google adotou medidas semelhantes no mês seguinte, altura em que a Cloudflare começou a oferecer o seu robots.txt.