Спецкурс по анализу данных и highload data engenearing процессам.
Преподватель: Матхеев Николай Васильевич
Дата проведения: осенний семестр 2019
Формат проведения:
- В канале https://t.me/iu8info будет выложено домашнее задание для прохода на спецкурс
- Все кто выполнят ДЗ (*) будут допущены до спецкурса
- Проведение 8 занятий в НОЦ ИБ с периодичностью один раз в две недели
С 2020 года спеукурс является обязательным для прохода на спецкурс "Data Science в ИБ"
Язык Python – это мощный интерпретируемый язык широкого назначения. Два самых распространённых способа работы с Python:
- самый верхний язык бизнес-процессов (конкурирует с PHP, Scala, частично с Go)
- в качестве языка для анализа данных (конкурирует с R).
- язык быстрого прототипирования и проверки гипотез (скритпты Meterpreter)
В спецкурсе будет кратко рассмотрены оба аспекта языка Python. На примере бизнес-процессов процессинговой системы.
-- TODO Коль, нельзя из Сбера какие-нибудь старые и неактуальные данные взять? (разумеется обезличенные!) -- Наверное это было бы более интересно для безопасников
В качестве задания студентам будет предложено разработать собственную процессинговую систему по крауленгу определённых веб-сайтов, извлечения, упаковки, систематизации информации и разработка простого модуля анализа данных (без Data Science, или с элементарным Data Science).
-- TODO написать про скрипты Meterpreter и т.д. Напиши Даше Щ. и Мариам А. -- они помогут.
-- TODO Коль, предлагаю примерно следующее. Поправь и
-
Язык Python, его преимущества и недостатки. Микросервисная архитектура. Современные Highload системы. Основные инструменты: RabbitMQ/Kafka, MySQL/Postgress, PyCharm, Jupyter. Data Analysis, Data Engenearing, Data Science. Пример на Python.
-
Data Engenearing & Data Science. Подробный разбор DE проекта.
-
Jupyter, Matplotlib и другие красивости
-
[Слипенчук] Основы прикладной статистики. Медиана, мода, среднее. Перцентили. Визуальное представление информации. Априорная и апостериорная вероятности. Принцип Монте-Карло. Частые ошибки при работе со статисчическими данными.
-
Сбор данных. Краулинг. На примере …. …. .
-
RabbitMQ и Kafka
-
SQL
-
…..
Будет опубликовано в канале https://t.me/iu8info не позднее -- TODO указать дату.