Skip to content

(ПРОЕКТ В РАБОТЕ) Данная работа направлена на изучение продвинутых техник подготовки данных, отбора оптимального набора признаков для обучения модели.

Notifications You must be signed in to change notification settings

KirillShiryaev61/advanced_data_processing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект: Продвинутые техники подготовки данных (Проект еще в работе)

Описание проекта: В данной работе я изучаю продвинутые техники обработки данных, чтобы оценить их влияние на точность прогноза модели, выявить моменты, которые могут вызывать сложности, какие шаги могут быть излишними, и сравнить, на сколько такие техники улучшают качество модели.

Цель проекта: Разработать и обучить модели машинного обучения для предсказания медианной стоимости дома в жилых массивах Калифорнии на основе различных комбинаций признаков, используя продвинутые техники к предобработке и подготовке данных, а так же отбора оптимального набора признаков для обучения модели.

Описание данных:

california_housing_prices.csv — данные о жилье в Калифорнии 1990 года.

🔗Ссылка на датасет

Описание признаков:

  • longitude — долгота;
  • latitude — широта;
  • housing_median_age — медианный возраст дома в пределах квартала (меньшее число - это более новое здание);
  • total_rooms — общее количество комнат в домах жилого массива;
  • total_bedrooms — общее количество спален в домах жилого массива;
  • population — количество человек, которые проживают в жилом массиве;
  • households — количество домовладений в жилом массиве;
  • median_income — медианный доход жителей жилого массива (единица измерения 10.000 US Dollars);
  • median_house_value — медианная стоимость дома в жилом массиве (Целевой признак / единица измерения US Dollars);
  • ocean_proximity — близость к океану.

Ход исследования:

  • Подготовка данных: загрузка и изучение общей информации из представленного датасета;

  • Предобработка данных: обработка пропущенных значений, корректировка типов данных и дубликатов;

  • Исследовательский анализ данных: изучение признаков имеющихся в датасетах, их распределение, поиск выбросов/аномалий в данных;

  • Корреляционный анализ: В процессе.

  • Подготовка данных:

  • Обучение моделей:

  • Анализ результатов:

  • Общий вывод:

About

(ПРОЕКТ В РАБОТЕ) Данная работа направлена на изучение продвинутых техник подготовки данных, отбора оптимального набора признаков для обучения модели.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published