Данный репозиторий содержит примеры решения задач по парсингу текстовых данных с сайтов и геоданных с использованием библиотек и инструментов Python.
Парсинг данных с сайта
Пример реализации функции на Python, которая в качестве аргументов принимает ссылку на страницу поиска и слова для поиска, автоматически выполняет к сайту поисковый запрос, из результатов извлекает заданные параметры (тескт статьи, ссылка на статью, дата публикации, количество лайков, просмотров) и записывает всю информацию в датафрейм. В функции предусмотрен алгоритм обработки ошибок.
Исследование проходило с использованием библиотек Python Pandas, Request, BeatifullSoup, Time.
Исследование включало четыре этапа:
- Исследование структуры сайта, разметки (HTML код);
- написание функции;
- тестирование работы функции, обработка ошибок.
Парсинг Гео-данных по API с использованеим портала Yandex GeoCoder.
Дан список адресов в формате .xlsx Необходимо написать функцию на Python, которая будет брать адрес из списка, выполнять get-запрос к Геокодеру и возвращать географические координаты этого адреса, сформировать таблицу с результами работы (адреса + координаты) снова в формате .xlsx Код должен предусматривать обработку ошибок.
Затем необходимо сформировать geojson файл и вывести объекты на интерактивную карту.
Исследование проходило с использованием библиотек Python Pandas, Requests, Geopandas, Folium.
Исследование включало следующие этапы:
- получение у Яндекса ключа для работы с API;
- загрузка документа с адресами в формате .xlsx;
- выполнение запросов, запись результатов;
- формирование jsonfile;
- вывод объектов на карту.