Целью проекта является проведение исследовательского анализа данных о заказах билетов на мероприятия сервиса Яндекс Афиша за период с 1 июня по 31 октября 2024 года и проверка гипотез, связанных с динамикой выручки, поведением пользователей и особенностями использования платформы. В рамках проекта необходимо изучить предоставленные датасеты, провести предобработку данных, привести выручку к единой валюте, рассчитать новые признаки, выявить и проанализировать основные метрики, а также проверить гипотезы, которые помогут понять поведение пользователей и выявить ключевые факторы, влияющие на продажи билетов.
Важной частью проекта является оценка корректности данных, проверка наличия пропусков и дубликатов, анализ распределения ключевых количественных признаков и подготовка данных к исследованию. Особое внимание уделяется объединению данных из нескольких источников и созданию единого датафрейма, который позволит проводить анализ в различных разрезах (по регионам, типам мероприятий, устройствам и другим факторам).
Результаты анализа помогут сформулировать рекомендации для продуктовой команды сервиса Яндекс Афиша, направленные на увеличение выручки, улучшение пользовательского опыта и выявление новых возможностей для развития бизнеса.
Первый датасет final_tickets_orders_df.csv
включает информацию обо всех заказах билетов, совершённых с двух типов устройств — мобильных и стационарных. Поля датасета соответствуют таблице purchases, с которой вы работали в предыдущих заданиях:
order_id
— уникальный идентификатор заказа.user_id
— уникальный идентификатор пользователя.created_dt_msk
— дата создания заказа (московское время).created_ts_msk
— дата и время создания заказа (московское время).event_id
— идентификатор мероприятия из таблицы events.cinema_circuit
— сеть кинотеатров. Если не применимо, то здесь будет значение 'нет'.age_limit
— возрастное ограничение мероприятия.currency_code
— валюта оплаты, например rub для российских рублей.device_type_canonical
— тип устройства, с которого был оформлен заказ, например mobile для мобильных устройств, desktop для стационарных;revenue
— выручка от заказа.service_name
— название билетного оператора.tickets_count
— количество купленных билетов.total
— общая сумма заказа.
Второй датасет final_tickets_events_df.csv
содержит информацию о событиях, включая город и регион события, а также информацию о площадке проведения мероприятия. Датасет содержит такие поля:
event_id
— уникальный идентификатор мероприятия.event_name
— название мероприятия. Аналог поля event_name_code из исходной базы данных.event_type_description
— описание типа мероприятия.event_type_main
— основной тип мероприятия: театральная постановка, концерт и так далее.organizers
— организаторы мероприятия.region_name
— название региона.city_name
— название города.venue_id
— уникальный идентификатор площадки.venue_name
— название площадки.venue_address
— адрес площадки.
Третий датасет final_tickets_tenge_df.csv
содержит информациию о курсе тенге к российскому рублю за 2024 год. Значения в рублях представлено для 100 тенге. Датасет содержит такие поля:
nominal
— номинал (100 тенге);data
— дата;curs
— курс тенге к рублю;cdx
— обозначение валюты (kzt).
- Импорт библиотек и загрузка данных
- Первичный осмотр данных и проверка корректности
- Объединение датасетов и формирование общего датафрейма
- Проверка и обработка пропусков и дубликатов
- Проверка распределений и выбросов
- Расчёт новых признаков
- Формулировка гипотез для проверки
- Проверка нормальности распределений
- Проведение статистических тестов
- Интерпретация результатов
- Составление аналитической записки