Skip to content

A collection of data analysis projects showcasing my skills in data manipulation, visualization, and statistical inference. Currently this repository is only available in Russian.

License

Notifications You must be signed in to change notification settings

iegorushkin/DA_portfolio

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Для данных онлайн-магазина (источник) были найдены ответы на следующие вопросы и реализованы следующие процедуры:

  1. Сколько пользователей совершили покупку только один раз?
  2. Сколько заказов в среднем не доставляется за месяц?
  3. Для каждого товара определить, в какой день недели он покупается чаще всего.
  4. Для каждого пользователя определить среднее количество покупок в неделю с разбивкой по месяцам.
  5. Разделить пользователей, совершивших покупки в 2017 году, на когорты по месяцам. Найти когорту с самым высоким показателем retention на 3-й месяц.
  6. Выполнить RFM-сегментацию пользователей и провести качественную оценку аудитории.

Стек

Python: numpy, pandas, scipy, matplotlib, seaborn, requests, sys, datetime.

В некоторый момент времени пользователи образовательной онлайн-платформы Х были случайным образом распределены либо в контрольную группу A, либо в целевую группу B. Затем в течение неназванного периода наблюдения при оформлении покупки на сайте пользователям из группы A предлагалось воспользоваться базовой механикой оплаты, а членам группы B — обновлённой. Все релевантные взаимодействия участников эксперимента с сайтом были записаны в .csv-таблицы. На базе этого набора данных (источник) была сделана оценка целесообразности развертывания новой механики оплаты на всех нынешних и будущих пользователей платформы.

Стек

Python: numpy, pandas, scipy, pingouin, matplotlib, seaborn, requests.

Команда образовательной платформы Х собрала информацию для A/B-тестирования нового экрана оплаты услуг на сайте и на её основе создала реляционную базу данных, управляемую системой Clickhouse (источник). Было найдено количество усердных студентов $^{1}$, сохраненных в этой базе данных, а для контрольной группы A и пилотной группы B были рассчитаны следующие продуктовые метрики:

  • средний доход с пользователя (ARPU);
  • средний доход с платящего пользователя (ARPPU);
  • средний доход с активного пользователя $^{2}$ (ARPАU);
  • коэффициент конверсии пользователей в покупку (CR);
  • коэффициент конверсии активных пользователей в покупку (CR_active);
  • коэффициент конверсии пользователей, проявлявших активность в курсе математики $^{3}$, в покупку этого курса (CR_math_active).

$^{1}$Усердный студент – это такой пользователь платформы, что хотя бы один раз правильно решил 20 и более заданий за месяц.
$^{2}$Активным считается пользователь, за все время решивший правильно более 10 любых задач.
$^{3}$Активным по математике считается пользователь, который за все время правильно решил две или более задачи в курсе математики.

Стек

Clickhouse: группировка, агрегирование и фильтрация данных, подзапросы, объединение таблиц, логические выражения, задание алиасов.
Python: pandahouse, pandas, numpy.

About

A collection of data analysis projects showcasing my skills in data manipulation, visualization, and statistical inference. Currently this repository is only available in Russian.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published