Домен для парсинга https://peps.python.org/.
Парсер собирает информацию и выводит собранную информацию в два файла .csv:
- в первый файл - список всех PEP: номер, название и статус;
- во второй файл - сводку по статусам PEP (количество документов в каждом статусе)
Метод parse собирает ссылки на документы PEP.
Метод parse_pep парсит страницы с документами.
Парсер сохраняет данные в файлы .csv в директорию results.
Запуск проекта осуществляется из директории pep_parse
Пример запуска работы (в виртуальной среде):
- scrapy crawl pep
git clone git@github.com:bauklu/scrapy_parser_pep.git cd https://github.com/bauklu
.venv/bin/activate
python scrapy csv