Описание проекта: В данной работе я изучаю продвинутые техники обработки данных, чтобы оценить их влияние на точность прогноза модели, выявить моменты, которые могут вызывать сложности, какие шаги могут быть излишними, и сравнить, на сколько такие техники улучшают качество модели.
Цель проекта: Разработать и обучить модели машинного обучения для предсказания медианной стоимости дома в жилых массивах Калифорнии на основе различных комбинаций признаков, используя продвинутые техники к предобработке и подготовке данных, а так же отбора оптимального набора признаков для обучения модели.
Описание данных:
california_housing_prices.csv — данные о жилье в Калифорнии 1990 года.
Описание признаков:
longitude— долгота;latitude— широта;housing_median_age— медианный возраст дома в пределах квартала (меньшее число - это более новое здание);total_rooms— общее количество комнат в домах жилого массива;total_bedrooms— общее количество спален в домах жилого массива;population— количество человек, которые проживают в жилом массиве;households— количество домовладений в жилом массиве;median_income— медианный доход жителей жилого массива (единица измерения 10.000 US Dollars);median_house_value— медианная стоимость дома в жилом массиве (Целевой признак / единица измерения US Dollars);ocean_proximity— близость к океану.
Ход исследования:
-
Подготовка данных: загрузка и изучение общей информации из представленного датасета; -
Предобработка данных: обработка пропущенных значений, корректировка типов данных и дубликатов; -
Исследовательский анализ данных: изучение признаков имеющихся в датасетах, их распределение, поиск выбросов/аномалий в данных; -
Корреляционный анализ: В процессе. -
Подготовка данных: -
Обучение моделей: -
Анализ результатов: -
Общий вывод: