O Reddit anunciou na terça-feira (25) que atualizará seu arquivo robots.txt, protocolo utilizado para informar robôs automatizados da web se eles têm permissão para navegar em um site.
Tradicionalmente, o robots.txt servia para permitir que mecanismos de busca indexassem o conteúdo e direcionassem tráfego para o site. No entanto, com o avanço da inteligência artificial (IA), sites estão sendo varridos por crawlers (rastreadores) para treinar modelos de IA sem o devido reconhecimento da fonte do conteúdo.
O que são crawlers?
Crawlers, também conhecidos como spiders (aranhas) ou bots de rastreador, são programas automatizados que navegam pela web de forma sistemática. Imagine um software que acessa sites, lê o conteúdo e segue links para outras páginas, assim como faria uma pessoa navegando na internet.
Existem crawlers usados para boas finalidades, como os crawlers de buscadores como o Google. Eles visitam sites, analisam o conteúdo e indexam as informações para que sejam exibidas nos resultados de pesquisa.
No entanto, crawlers também podem ser usados de forma maliciosa. É o caso do que aconteceu com a plataforma de busca Perplexity, citada nesse artigo. Esse tipo de crawler ignora as restrições impostas por sites (como o robots.txt) e copia indevidamente o conteúdo para treinar modelos de inteligência artificial sem autorização.
Além da atualização do robots.txt, o Reddit continuará limitando a taxa de acesso e bloqueando bots desconhecidos. A empresa afirmou que bots e crawlers que não seguirem a Política de Conteúdo Público do Reddit e não possuírem um acordo com a plataforma sofrerão restrições ou bloqueios.
O Reddit afirma que a atualização não deve afetar a maioria dos usuários ou agentes de boa-fé, como pesquisadores e organizações como o Internet Archive. Em vez disso, a medida visa impedir empresas de IA de treinar seus modelos de linguagem em conteúdo do Reddit. É claro, crawlers de IA podem ignorar o robots.txt.
Veja mais: Funcionários de gigantes da IA alertam sobre perigos da tecnologia em carta aberta.
O anúncio ocorre poucos dias após uma investigação da Wired revelar que a startup de busca baseada em IA, Perplexity, estava roubando e copiando conteúdo indevidamente. A Wired descobriu que a Perplexity parece ignorar solicitações para não rastrear seu site, mesmo com o bloqueio no robots.txt. O CEO da Perplexity, Aravind Srinivas, respondeu às acusações afirmando que o robots.txt não possui força legal.
Pague ou desista, a solução do Reddit
As mudanças do Reddit não afetarão empresas com acordos firmados. Por exemplo, o Reddit possui um contrato de US$ 60 milhões com o Google que permite à gigante das buscas treinar seus modelos de IA no conteúdo da plataforma. Com essas alterações, o Reddit sinaliza a outras empresas interessadas em utilizar dados do Reddit para treinamento de IA que será necessário firmar um acordo financeiro.
“Qualquer pessoa que acesse o conteúdo do Reddit deve cumprir nossas políticas, incluindo aquelas implementadas para proteger os usuários”, afirmou o Reddit em um post no blog. “Somos seletivos em relação a quem concedemos acesso em larga escala ao conteúdo do Reddit e em quem confiamos.”