Skip to content

YarTsin/jsoup

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Пример использования Jsoup

Описание
Пример использования Jsoup для Веб-скрапинга и Парсинга
статической html страницы

Жми ★ если понравилось.

Цель проекта
Цель проекта - показать использование Jsoup на несложном примере одной html страницы
Используйте для своих экспериментов

Общее описание задачи
Было необходимо сделать Веб-скрапинг (Web Scraping) и Парсинг (Parsing)
статической html страницы для использования её в другом проекте,
привести немного ближе к более упрощенному синтаксису Markdown

Техническое задание
~ Подключиться к странице по указанному адресу с использованием библиотеки Jsoup.
~ Очистить HTML-документ от ненужных элементов, таких как скрипты, стили, заголовки, футеры и навигационные блоки.
~ Удалить ненужные атрибуты у тегов img, a, и div, такие как class, id, style, accesskey, aria-label, и title.
~ Упростить структуру изображений: заменить теги figure и figcaption на простые теги img.
~ Упростить ссылки: оставить только атрибут href и текст ссылки.
~ Удалить атрибут srcset у изображений для упрощения обработки.
~ Удалить символ решетки (#) из заголовков h2 и h3, если они присутствуют в тексте.
~ Создать папку для хранения изображений в корне проекта - images.
~ Скачать все изображения с веб-страницы и сохранить их в созданную папку.
~ Изменить ссылки на изображения в HTML-документе на локальные пути, указывающие на скачанные изображения.
~ Изменить размер изображений, если их ширина превышает 800 пикселей, с сохранением пропорций.
~ Сохранить очищенный и обработанный HTML-документ в файл result.html в корне проекта.
~ Реализовать прогресс-отчет для отслеживания выполнения каждого этапа обработки.

Разное
Точка входа в программу - класс Main
Запуск программы производился только из IDE Idea
Базу данных подключать не надо
Windows 10, Java 21

About

Web scraping using Jsoup

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published