Novo Web Crawler da OpenAI: Como Controlar o Acesso ao Seu Site

A OpenAI lançou recentemente um novo web crawler chamado GPTBot, com o objetivo de expandir seu conjunto de dados para treinar a próxima geração de sistemas de IA. A empresa já até registrou a marca “GPT-5”, sugerindo um lançamento iminente de uma nova iteração do seu modelo de IA. Este novo web crawler irá coletar dados publicamente disponíveis em websites, sem acessar conteúdo protegido por pagamento, sensível ou proibido, de acordo com a política da OpenAI.

Assim como outros motores de busca como Google, Bing e Yandex, o sistema opera no modo de “opt out”. Isso significa que, por padrão, o GPTBot assumirá que as informações acessíveis estão disponíveis para serem coletadas. No entanto, os proprietários de sites que desejam evitar que o web crawler da OpenAI colete seus dados podem fazê-lo adicionando uma regra de “disallow” a um arquivo padrão em seus servidores.

Para garantir a privacidade e cumprir suas políticas, a OpenAI também afirma que o GPTBot fará uma varredura prévia nos dados coletados para remover informações de identificação pessoal (IIP) e texto que violem suas diretrizes.

Essa abordagem de “opt out” tem gerado discussões éticas, com alguns argumentando que a OpenAI precisa coletar o máximo possível de dados para garantir a capacidade de suas ferramentas de IA no futuro. Outros, mais preocupados com a privacidade, levantam questões sobre a criação de um trabalho derivado sem citar as fontes originais.

A liberação do GPTBot ocorre em meio a críticas anteriores à OpenAI por coletar dados sem permissão para treinar seus modelos de Linguagem de Grande Escala (LLM), como o ChatGPT. Em resposta a essas preocupações, a empresa atualizou suas políticas de privacidade em abril.

A solicitação recente de uma marca para “GPT-5” parece confirmar que a OpenAI está treinando seu próximo modelo para um futuro lançamento. Esse novo sistema muito provavelmente envolverá coleta em larga escala de dados da internet para atualizar e expandir seus dados de treinamento.

A busca por mais e mais dados é essencial para a evolução das IA da OpenAI e de outros players no mercado. No entanto, essa busca também levanta questões éticas em relação a direitos autorais e consentimento.

Se você é um operador de site e deseja bloquear o GPTBot da OpenAI de coletar seus dados, você pode fazê-lo adicionando uma regra de “disallow” ao arquivo Robots.txt do seu site ou bloqueando seu endereço IP. A OpenAI esclarece que permitir o acesso do GPTBot ao seu site pode ajudar a melhorar a precisão dos modelos de IA e aprimorar suas capacidades gerais de maneira segura.

Este é um passo importante em direção a permitir que os usuários da internet escolham não ter seus dados utilizados para treinar modelos de linguagem de grande escala. A indústria de IA está em constante evolução, e o equilíbrio entre transparência, ética e capacidades continuará sendo um desafio complexo.

Aqui está um exemplo de como você pode configurar o arquivo robots.txt

User-agent: GPTBot
Disallow: /