Парсер собирает ссылки на документы PEP со стартовой страницы по адресу https://peps.python.org/ и переходит по каждой ссылке, чтобы получить актуальную информацию о каждом документе PEP.
Парсер работает в асинхронном режиме, что существенно ускоряет процесс парсинга. После сбора информации, парсер обрабатывает ее и выводит результаты в два файла формата .csv. Названия файлов содержат временную метку для уникальности.
В первом файле выводится список всех PEP документов вместе с их номерами, названиями и статусами. Во втором файле представлена сводка по статусам PEP - количество документов, найденных в каждом статусе. В последней строке второго файла указана общая информация о количестве всех найденных документов. Файлы сохраняются в папку results, находящуюся в корне проекта.
Клонировать репозиторий:
git clone https://github.com/Tatiana314/Scrapy_parser_pep.git && cd Scrapy_parser_pep
Создать и активировать виртуальное окружение:
python -m venv venv
Linux/macOS: source env/bin/activate
windows: source env/scripts/activate
Установить зависимости из файла requirements.txt:
python -m pip install --upgrade pip
pip install -r requirements.txt
Запустить приложение:
scrapy crawl pep