Описание
Пример использования Jsoup для Веб-скрапинга и Парсинга
статической html страницы
Жми ★ если понравилось.
Цель проекта
Цель проекта - показать использование Jsoup на несложном примере одной html страницы
Используйте для своих экспериментов
Общее описание задачи
Было необходимо сделать Веб-скрапинг (Web Scraping) и Парсинг (Parsing)
статической html страницы для использования её в другом проекте,
привести немного ближе к более упрощенному синтаксису Markdown
Техническое задание
~ Подключиться к странице по указанному адресу с использованием библиотеки Jsoup.
~ Очистить HTML-документ от ненужных элементов, таких как скрипты, стили, заголовки, футеры и навигационные блоки.
~ Удалить ненужные атрибуты у тегов img, a, и div, такие как class, id, style, accesskey, aria-label, и title.
~ Упростить структуру изображений: заменить теги figure и figcaption на простые теги img.
~ Упростить ссылки: оставить только атрибут href и текст ссылки.
~ Удалить атрибут srcset у изображений для упрощения обработки.
~ Удалить символ решетки (#) из заголовков h2 и h3, если они присутствуют в тексте.
~ Создать папку для хранения изображений в корне проекта - images.
~ Скачать все изображения с веб-страницы и сохранить их в созданную папку.
~ Изменить ссылки на изображения в HTML-документе на локальные пути, указывающие на скачанные изображения.
~ Изменить размер изображений, если их ширина превышает 800 пикселей, с сохранением пропорций.
~ Сохранить очищенный и обработанный HTML-документ в файл result.html в корне проекта.
~ Реализовать прогресс-отчет для отслеживания выполнения каждого этапа обработки.
Разное
Точка входа в программу - класс Main
Запуск программы производился только из IDE Idea
Базу данных подключать не надо
Windows 10, Java 21