Skip to content

Реализация на PySpark логики сопоставления продуктов с их категориями в условиях связи «многие-ко-многим»

Notifications You must be signed in to change notification settings

ChudoYuda/PySparkCategory

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Метод на PySpark

В PySpark приложении датафреймами (pyspark.sql.DataFrame) заданы продукты, категории и их связи. Каждому продукту может соответствовать несколько категорий или ни одной. А каждой категории может соответствовать несколько продуктов или ни одного. В данном проекте реализован метод на PySpark, который в одном датафрейме возвращает все пары «Имя продукта – Имя категории» и имена всех продуктов, у которых нет категорий.

Этот проект реализует логику сопоставления продуктов с их категориями в условиях связи «многие-ко-многим». Основная функция принимает три набора данных — список продуктов, список категорий и таблицу связей между ними — и возвращает все возможные пары «продукт – категория».

Особенность реализации: даже продукты, не привязанные ни к одной категории, включаются в результат с пустым значением категории.

About

Реализация на PySpark логики сопоставления продуктов с их категориями в условиях связи «многие-ко-многим»

Resources

Stars

Watchers

Forks

Languages