Skip to content

all the work I have been done during Kodołamacz Data Science PRO bootcamp, including case-studies (except the final project)

Notifications You must be signed in to change notification settings

mdabrowski-phd/kodolamacz_DSPro

Repository files navigation

kodolamacz_DSPro

all the work I have been done during Kodołamacz Data Science PRO bootcamp, including case-studies (except the final project)

  1. Python podstawy + Git
  • Środowisko Pycharm
  • Python: typy danych, instrukcje sterujące, funkcje, wyrażenia listotwórcze, obsługa wyjątków
  • Git, Bash - podstawy
  • Moduły
  • Wyrażenia regularne (regexy)
  1. Python rozszerzenie
  • Podstawy programowania obiektowego
  • Pliki tekstowe (czytanie/zapis), serializacja obiektów
  • Wprowadzenie do generatorów i przetwarzania dat
  1. Python: Numpy i Matplotlib
  1. Python: Pandas
  • Pandas: wczytywanie danych, transformacje danych, agregacje
  • Czytanie tabel z pików tekstowych, .csv, arkuszy excelowych .xls, pliki .json
  1. Python: praca z różnymi źródłami danych
  • Obsługa plików .xml
  • Pobieranie danych z publicznego API
  • Web scraping
  • SQL, czytanie danych z baz z poziomu Pythona
  1. Rachunek prawdopodobieństwa i statystyka
  • Statystyka opisowa
  • Podstawy rachunku prawdopodobieństwa (zmienna losowa, różne rozkłady, wartość oczekiwana, wariancja)
  • Estymacja punktowa i przedziały ufności
  • Testowanie hipotez
  • Test chi-kwadrat
  • Analiza wariancji
  • Wielowymiarowy rozkład normalny
  1. Model regresji liniowej
  • Transformacje danych
  • Ocena jakości (analiza reziduów i różne metryki)
  • Schematy ewaluacji (train-test, walidacja krzyżowa)
  • Istotność zmiennych
  • Regularyzacja w modelu regresji liniowej: lasso, ridge
  • Automatyzacji procesu modelowania - pipelines (proste przypadki)
  • Optymalizacja hiperparametrów
  1. Podstawowe pojęcia
  • Analiza szeregów czasowych
  • Model ARIMA
  • Dekompozycja szeregu
  • Ewaluacja
  1. Uczenie maszynowe: problem klasyfikacji 1
  • Regresja logistyczna
  • Drzewo decyzyjne
  • Naiwny klasyfikator Bayesa
  • Knn
  • Svm
  • Las losowy
  • Bagging
  • Regularyzacja modeli i optymalizacja hiperparametrów
  • Przygotowywanie danych do modelowania
  1. Uczenie maszynowe: problem klasyfikacji 2
  • Specjalistyczne miary oceny klasyfikatorów (F1, AUC)
  • Ocena ważności i metody selekcji cech
  • Problem niezbalanowanych klas (ważenie klas, metody resampligu, SMOTE)
  • Obsługa braków danych
  • Algorytm XGBoost
  1. Uczenie maszynowe: redukcja wymiaru i analiza danych tekstowych
  • Rozkład SVD
  • Algorytm PCA i jego zastosowania: interpretacja, wizualizacja, element procesu predykcyjnego
  • Modelowanie na danych tekstowych: czyszczenie tekstu, macierz częstości słów, macierz ważności słów TFIDF
  • Model LDA (ukryta alokacja Dirichleta)
  1. Biblioteka Spark
  • Zapoznanie z komponentami i architekturą
  • Przetwarzanie danych i API Spark SQL
  • Uczenie maszynowe w Spark ML
  1. Deep learning (Keras)
  • Podstawowe sieci neuronowe - perceptron wielowarstwowy, regularyzacja klasyczna i dropout
  • Proces uczenia sieci: metoda spadku gradientu, batch, epoka, early stopping
  • Konwolucyjne sieci neuronowe - klasyfikacja obrazów
  • Transfer learning i augmentacja danych w klasyfikacji obrazów
  • Sieci rekurencyjne (w tym LSTM) - klasyfikacja tekstów, zanurzenia słów (word embeddings)
  1. Uczenie maszynowe: analiza skupień
  • Algorytm K-średnich (interpretacja, ewaluacja, wyznaczanie liczby skupień)
  • Algorytm grupowania hierarchicznego
  • Algorytm DBSCAN
  • Grupowanie dużych danych
  1. Uczenie maszynowe: inżynieria
  • Programistyczna strona uczenia maszynowego
  • Implementacja złożonych pipelinów (w tym obiektowa implementacja transformatorów)

About

all the work I have been done during Kodołamacz Data Science PRO bootcamp, including case-studies (except the final project)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published