Этот проект демонстрирует полный процесс работы с данными, от предварительной обработки до обучения модели и анализа результатов. Мы используем RandomForestRegressor из библиотеки scikit-learn для прогнозирования значений на основе очищенных и обработанных данных.
Проект оформлен в виде Jupyter Notebook и готов для включения в портфолио.
- Python 3.x
- Jupyter Notebook (через Anaconda)
- Pandas
- NumPy
- scikit-learn
- Matplotlib / Seaborn (для визуализации)
azs_model/
├── config.py # Основные настройки проекта
├── holidays.ipynb # Анализ праздничных дней
├── income.ipynb # Анализ доходов
├── main.ipynb # Главный ноутбук для запуска пайплайна
├── meteo.ipynb # Работа с метеоданными
├── ofd.ipynb # Обработка данных ОФД
├── train.ipynb # Обучение моделей
├── weather.ipynb # Анализ погодных данных
├── readme.md # Описание проекта
├── cfg/ # Конфигурационные файлы
│ └── config_default.py # Конфиг по умолчанию
├── datasets/ # Датасеты
│ ├── parsed/ # Обработанные данные
│ │ ├── calendar_2023.csv
│ │ ├── calendar_2024.csv
│ │ ├── calendar_2025.csv
│ │ ├── income_2023.csv
│ │ ├── income_2024.csv
│ │ ├── weather_2023.csv
│ │ └── weather_2024.csv
│ └── raw/ # Сырые данные
│ ├── ofd_2023.csv
│ ├── ofd_2024.csv
│ ├── price2023.mxl
│ └── price2024.mxl
├── models/ # Папка для сохранения моделей
├── notebooks/ # Дополнительные ноутбуки и эксперименты
└── __pycache__/ # Служебные файлы Python
Пояснения к структуре:
config.py,cfg/— конфигурация и параметры запуска*.ipynb— ноутбуки для анализа, обучения и визуализацииdatasets/parsed/— подготовленные для анализа датасетыdatasets/raw/— исходные (сырые) данныеmodels/— сохранённые модели и артефакты обученияnotebooks/— дополнительные ноутбуки, эксперименты__pycache__/— служебные файлы Python (автоматически генерируются)
- Загрузка и анализ исходных данных
- Очистка данных и обработка пропусков
- Увеличение числа классов параметров
- Анализ и усечение экстремальных значений
- Устранение выбросов через усреднение
- Балансировка тренировочной и тестовой выборок
- Подбор гиперпараметров модели
- Обучение модели RandomForestRegressor
- Оценка результатов и визуализация ошибок
- Модель достигает хороших метрик качества на валидационной выборке.
- Найдены участки с большими отклонениями, выполнен анализ причин.
- Визуализации помогают оценить стабильность и качество модели.
conda create -n rfenv python=3.10 -y
conda activate rfenv
pip install -r requirements.txt
jupyter notebook- Использовать GridSearchCV или Optuna для более тонкого подбора параметров
- Протестировать другие регрессионные модели (LightGBM, XGBoost)
- Добавить автоматическую генерацию отчёта по метрикам
MIT License
Если вы нашли этот проект полезным, ⭐️ поставьте звезду на GitHub!