Skip to content

Категоризация данных товаров бисера: преобразование категориальных признаков, интервальное кодирование цен и создание бинарного представления

Notifications You must be signed in to change notification settings

Shirouky/lab4-Data-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Лабораторная работа №4: Категоризация и бинарное представление данных

Описание

Категоризация данных товаров бисера: преобразование категориальных признаков, интервальное кодирование цен и создание бинарного представления данных.

Технологии

  • Python 3.7+
  • Pandas - обработка данных
  • NumPy - числовые операции
  • OpenPyXL - работа с Excel

Структура проекта

LW4.ipynb                 # основной скрипт обработки
DataFrame beads.xlsx      # исходные данные из ЛР3
DataFrame.xlsx            # результат (генерируется)

Функциональность

Задание 1: Категоризация данных

  • Загрузка подготовленных данных из Excel файла
  • Создание словаря категорий для категориальных признаков
  • Преобразование столбцов с помощью функции map
  • Автоматическое присвоение индексов уникальным значениям

Задание 2: Интервальное кодирование и бинарное представление

  • Разбиение числовых данных на интервалы (цена на категории)
  • Присвоение меток "Низкая", "Средняя", "Высокая", "Очень высокая"
  • Преобразование в бинарное представление с помощью one-hot encoding
  • Объединение датафреймов - исходного с бинарными признаками

Ключевые функции

Категоризация

def categorize_column(df, column)  # Преобразование категориального признака
def print_distribution(df, column) # Анализ распределения данных

Интервальное кодирование

def sampling_column(df, column, labels)  # Разбиение на интервалы с метками
def get_binary(column)                   # One-hot кодирование категорий

Вспомогательные функции

def import_xlsx()    # Загрузка данных из Excel
def save_xlsx(df)    # Сохранение результатов

Результат

Файл DataFrame.xlsx с преобразованными данными:

  • Категоризированные признаки с числовыми индексами
  • Цены, распределенные по интервальным категориям
  • Бинарное представление категориальных данных
  • Объединенный датасет с исходными и преобразованными признаками

About

Категоризация данных товаров бисера: преобразование категориальных признаков, интервальное кодирование цен и создание бинарного представления

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages