Категоризация данных товаров бисера: преобразование категориальных признаков, интервальное кодирование цен и создание бинарного представления данных.
- Python 3.7+
- Pandas - обработка данных
- NumPy - числовые операции
- OpenPyXL - работа с Excel
LW4.ipynb # основной скрипт обработки
DataFrame beads.xlsx # исходные данные из ЛР3
DataFrame.xlsx # результат (генерируется)
- Загрузка подготовленных данных из Excel файла
- Создание словаря категорий для категориальных признаков
- Преобразование столбцов с помощью функции
map - Автоматическое присвоение индексов уникальным значениям
- Разбиение числовых данных на интервалы (цена на категории)
- Присвоение меток "Низкая", "Средняя", "Высокая", "Очень высокая"
- Преобразование в бинарное представление с помощью one-hot encoding
- Объединение датафреймов - исходного с бинарными признаками
def categorize_column(df, column) # Преобразование категориального признака
def print_distribution(df, column) # Анализ распределения данныхdef sampling_column(df, column, labels) # Разбиение на интервалы с метками
def get_binary(column) # One-hot кодирование категорийdef import_xlsx() # Загрузка данных из Excel
def save_xlsx(df) # Сохранение результатовФайл DataFrame.xlsx с преобразованными данными:
- Категоризированные признаки с числовыми индексами
- Цены, распределенные по интервальным категориям
- Бинарное представление категориальных данных
- Объединенный датасет с исходными и преобразованными признаками