Esse coletor é foi feito como Trabalho Prático da disciplina de Recuperação de Dados do CEFET-MG.
Esse bot respeita as diretivas dos respectivos robots.txt das URLs alvo escolhidas. Esse bot não tenta coletar documentos que estão são privados (/private/) ou não permitidos (/not-allowed). Respeitando as regras da seguinte forma:
User-agent: Bot # bot
Disallow: /private/ # disallow this directory
User-agent: * # any robot
Disallow: /not-allowed/ # disallow this directory
Para cada aluno foram coletadas as respectivas URLs indicadas pelo enunciado do Trabalho, sendo elas:
globo.com
amazon.com
americanas.com.br
reuters.com