Этот курс посвящен обзору статистических методов в прикладном анализе данных. В ходе курса мы совершим переход от задач статистики к задачам машинного обучения - от выводов к предсказаниям.
Курс начинается с формулировки фундаментальных понятий (случайные числа, Байесова и частотная вероятности, плотность вероятности). Мы рассмотрим задачи вывода (определение параметров модели и A/B тестирование), коснемся основ дизайна эксперимента (Гауссовские процессы), моделирования данных (симуляция, выборки, toy MC, bootstrap), и рассмотрим авторегрессионные задачи.
Мы используем полученный понятийный аппарат для рассмотрения задач предсказания - машинного обучения. Мы рассмотрим классические проблемы встающие в машинном обучении - дилема дисперсии смещения, проблема выбора модели, распространение ошибки - с точки зрения статистики.
Материалы курса представляют собой набор лекций. В данный момент лекции расширяются и обрабатываются.
Обзор теории вероятности выполненый Partile Data Group https://pdg.lbl.gov/2022/reviews/rpp2022-rev-probability.pdf
Обзор статистики выполненый Partile Data Group https://pdg.lbl.gov/2022/reviews/rpp2022-rev-statistics.pdf
Обзорный материал по машинному обучению: Introduction to Statistical Learning https://www.statlearning.com/
Глубокий материал по машинному обучению: Elements of Statistical Learning https://web.stanford.edu/~hastie/ElemStatLearn/
Отличный обзор машинного обучения с точки зрения статистики Probabilistic Machine Learning: https://probml.github.io/pml-book/book1.html
Для запуска кода необходимо установить Python версии 3.12.5 и выше.
Для установки зависимостей выполните команду:
python3 -m venv lect_env
source lect_env/bin/activate
pip install -r requirements.txt
python -m ipykernel install --user --name=lectures
Запуск ноутбуков выполните командой:
jupyter notebook
В ноутбуке выберите ядро lectures
.
This project is licensed under the MIT License - see the LICENSE.md file for details