Описание всех проектов:
Название (+ссылка) | Суть проекта | Используемые библиотеки |
Исследование оттока в банке: портрет клиента + рекомендации | Задачи: выделить главные факторы, влияющие на склонность клиента к оттоку, составить портрет клиента из «зоны риска», предложить рекомендации для улучшения стратегии удержания клиентов. | Библиотеки pandas и seaborn, scipy и phik. Для проверки гипотезы о нормальности распределения данных применялся тест Шапиро-Уилка, уровень значимости альфа скорректирован поправкой Шидака на множественное сравнение. Для проверки гипотез о равенстве средних значений признаков применялся непараметрический U-критерий Манна-Уитни, а для гипотез о равенстве долей (отток среди разных категорий клиентов) – Z-тест. |
Прогнозирование оттока с применением алгоритмов машинного обучения | Задачи: сегментировать клиентов, описать характерные признаки каждой группы, спрогнозировать отток клиентов для следующего месяца, сформулировать рекомендации по улучшению стратегии удержания клиентов | Применялись инструменты: библиотека seaborn для построения графиков, pandas и numpy для EDA. Кластеризацию клиентов делал алгоритмом KMeans, для определения оптимального числа кластеров воспользовался дендрограммой из scipy.cluster.hierarchy. Для прогнозирования оттока применил модели бинарной классификации: логистическая регрессия и случайный лес, подбор параметров осуществил с помощью GridSearchCV. |
Исследование объявлений о продаже квартир | Определение рыночной стоимости объектов недвижимости (на базе данных ресурса Яндекс.Недвижимость). Задача — установить параметры, которые в той или иной степени оказывают влиение на финальную стоимость. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. | Стек стандартный + библиотеки sklearn (Random Forest, Gradient Boosting etc.) и XGBoost для обучения разных моделей регрессии; подбор гиперпараметров с помощью RandomizedSearchCV и GridSearchCV |
Определение перспективного тарифа для телеком-компании | Анализ тарифов мобильного оператора. Необходимо проанализировать поведение клиентов и сделать вывод — какой тариф лучше. | Стек стандартный: scipy, numpy, pandas, matplotlib |
Сборный проект-1. Анализ игровой индустрии | Интернет-магазин компьютерных игр и игр для консолей. Необходимо выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. | В основном проект выполнил с помощью исследовательского анализа и визуализации с plotly. Также проверял гипотезы о средних 2 выборок с помощью scipy и t-критерия Стьюдента |
Анализ бизнес-показателей | Стажировка в отделе аналитики Яндекс.Афиши. Задача: помочь маркетологам оптимизировать маркетинговые затраты. Расчет бизнес-метрик: Retention, LTV, CAC, ROMI. | pandas, numpy, matplotlib, seaborn pandas-bokeh, holoviews |
Анализ результатов AB-теста | Анализ результатов A/B-теста. | Стек стандартный: scipy, numpy, pandas, matplotlib |
Сборный проект-2. ААВ-тесты | ААВ-тестирование, множественное тестирование и применение поправок к полученным результатам. | pandas, plotly, statsmodels |