Este projeto foi desenvolvido por Beatriz Souza da Silva, Fadoa Glauss Vieira e Robert Cristiam Faustino de Souza como parte da discplina de Tópicos Especiais em Computação e Algoritmos: Algorimos de Organização e Recuperação de Informação do Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). Seu objetivo é promover o estudo e aprendizado de um coletor de próposito geral para Web.
Antes de comerçarmos, instale o python3 e o pip3 abaixo usando sudo apt-get install python3 python3-pip.
Asim, você pode utilizar a prática desenvolvida no coding dojo, disponível em docs
para executar o Bifaro Bot!
Ou se você preferir, utilize o comando:
python3 run.py
E lembre-se de instalar todas as dependências, caso utilize o run.py
!
!pip install bs4
!pip install requests
!pip install lxml
O tráfego proveniente é identificado por seu agente de usuário: bifaroBot.
Bifaro Bot respeita as diretivas padrão de robots.txt. Neste exemplo, o Bifaro Bot não coleta documentos em private
ou not-allowed
por meio do uso da biblioteca RobotFileParser:
User-agent: bifaroBot
Allow: / # Allow everything
Disallow: /private/ # Disallow this directory
User-agent: * # Any robot
Disallow: /not-allowed/ # Disallow this directory
O Bifaro Bot pode processar o conteúdo de seu site em um navegador. Se resursos forem bloqueados por meio de robots.txt, o Bifaro Bot pode não ser capaz de processar o conteúdo corretamente. Isso inclui XHR, JS e CSS que a página pode exigir.
Para que o Bifaro Bot indexe o melhor conteúdo para a página, certifique-se de que tudo o que é necessário para um usuário renderizar a página está disponível para o Bifaro Bot. Como alternativa, certifique-se de que o site seja renderizado de forma limpa, mesmo se todos os recursos não estiverem disponíveis.
Para fins didáticos, realizou-se a coleta no dia 15 de Outubro de 2020 de páginas públicas, obedecendo a politíca de exclusão de robôs - disponível em robos.txt da página, por meio das seguintes sementes:
Para mais detalhes veja BifaroBot.
Você teve problema com o projeto? Entre em contato com o suporte por e-mail.