В PySpark приложении датафреймами (pyspark.sql.DataFrame) заданы продукты, категории и их связи. Каждому продукту может соответствовать несколько категорий или ни одной. А каждой категории может соответствовать несколько продуктов или ни одного. В данном проекте реализован метод на PySpark, который в одном датафрейме возвращает все пары «Имя продукта – Имя категории» и имена всех продуктов, у которых нет категорий.
Этот проект реализует логику сопоставления продуктов с их категориями в условиях связи «многие-ко-многим». Основная функция принимает три набора данных — список продуктов, список категорий и таблицу связей между ними — и возвращает все возможные пары «продукт – категория».
Особенность реализации: даже продукты, не привязанные ни к одной категории, включаются в результат с пустым значением категории.