Skip to content

nboravlev/Data_parsing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Данный репозиторий содержит примеры решения задач по парсингу текстовых данных с сайтов и геоданных с использованием библиотек и инструментов Python.

Парсинг данных с сайта

Пример реализации функции на Python, которая в качестве аргументов принимает ссылку на страницу поиска и слова для поиска, автоматически выполняет к сайту поисковый запрос, из результатов извлекает заданные параметры (тескт статьи, ссылка на статью, дата публикации, количество лайков, просмотров) и записывает всю информацию в датафрейм. В функции предусмотрен алгоритм обработки ошибок.

Исследование проходило с использованием библиотек Python Pandas, Request, BeatifullSoup, Time.

Исследование включало четыре этапа:

  • Исследование структуры сайта, разметки (HTML код);
  • написание функции;
  • тестирование работы функции, обработка ошибок.

Парсинг Гео-данных по API с использованеим портала Yandex GeoCoder.

Дан список адресов в формате .xlsx Необходимо написать функцию на Python, которая будет брать адрес из списка, выполнять get-запрос к Геокодеру и возвращать географические координаты этого адреса, сформировать таблицу с результами работы (адреса + координаты) снова в формате .xlsx Код должен предусматривать обработку ошибок.

Затем необходимо сформировать geojson файл и вывести объекты на интерактивную карту.

Исследование проходило с использованием библиотек Python Pandas, Requests, Geopandas, Folium.

Исследование включало следующие этапы:

  • получение у Яндекса ключа для работы с API;
  • загрузка документа с адресами в формате .xlsx;
  • выполнение запросов, запись результатов;
  • формирование jsonfile;
  • вывод объектов на карту.

About

Scraping text data from sites, parsing geodata from Yandex-Geocoder

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published