all the work I have been done during Kodołamacz Data Science PRO bootcamp, including case-studies (except the final project)
- Python podstawy + Git
- Środowisko Pycharm
- Python: typy danych, instrukcje sterujące, funkcje, wyrażenia listotwórcze, obsługa wyjątków
- Git, Bash - podstawy
- Moduły
- Wyrażenia regularne (regexy)
- Python rozszerzenie
- Podstawy programowania obiektowego
- Pliki tekstowe (czytanie/zapis), serializacja obiektów
- Wprowadzenie do generatorów i przetwarzania dat
- Python: Numpy i Matplotlib
- Środowisko Jupyter
- Numpy: praca z tablicami, ćwiczenia praktyczne
- Matplotlib
- Python: Pandas
- Pandas: wczytywanie danych, transformacje danych, agregacje
- Czytanie tabel z pików tekstowych, .csv, arkuszy excelowych .xls, pliki .json
- Python: praca z różnymi źródłami danych
- Obsługa plików .xml
- Pobieranie danych z publicznego API
- Web scraping
- SQL, czytanie danych z baz z poziomu Pythona
- Rachunek prawdopodobieństwa i statystyka
- Statystyka opisowa
- Podstawy rachunku prawdopodobieństwa (zmienna losowa, różne rozkłady, wartość oczekiwana, wariancja)
- Estymacja punktowa i przedziały ufności
- Testowanie hipotez
- Test chi-kwadrat
- Analiza wariancji
- Wielowymiarowy rozkład normalny
- Model regresji liniowej
- Transformacje danych
- Ocena jakości (analiza reziduów i różne metryki)
- Schematy ewaluacji (train-test, walidacja krzyżowa)
- Istotność zmiennych
- Regularyzacja w modelu regresji liniowej: lasso, ridge
- Automatyzacji procesu modelowania - pipelines (proste przypadki)
- Optymalizacja hiperparametrów
- Podstawowe pojęcia
- Analiza szeregów czasowych
- Model ARIMA
- Dekompozycja szeregu
- Ewaluacja
- Uczenie maszynowe: problem klasyfikacji 1
- Regresja logistyczna
- Drzewo decyzyjne
- Naiwny klasyfikator Bayesa
- Knn
- Svm
- Las losowy
- Bagging
- Regularyzacja modeli i optymalizacja hiperparametrów
- Przygotowywanie danych do modelowania
- Uczenie maszynowe: problem klasyfikacji 2
- Specjalistyczne miary oceny klasyfikatorów (F1, AUC)
- Ocena ważności i metody selekcji cech
- Problem niezbalanowanych klas (ważenie klas, metody resampligu, SMOTE)
- Obsługa braków danych
- Algorytm XGBoost
- Uczenie maszynowe: redukcja wymiaru i analiza danych tekstowych
- Rozkład SVD
- Algorytm PCA i jego zastosowania: interpretacja, wizualizacja, element procesu predykcyjnego
- Modelowanie na danych tekstowych: czyszczenie tekstu, macierz częstości słów, macierz ważności słów TFIDF
- Model LDA (ukryta alokacja Dirichleta)
- Biblioteka Spark
- Zapoznanie z komponentami i architekturą
- Przetwarzanie danych i API Spark SQL
- Uczenie maszynowe w Spark ML
- Deep learning (Keras)
- Podstawowe sieci neuronowe - perceptron wielowarstwowy, regularyzacja klasyczna i dropout
- Proces uczenia sieci: metoda spadku gradientu, batch, epoka, early stopping
- Konwolucyjne sieci neuronowe - klasyfikacja obrazów
- Transfer learning i augmentacja danych w klasyfikacji obrazów
- Sieci rekurencyjne (w tym LSTM) - klasyfikacja tekstów, zanurzenia słów (word embeddings)
- Uczenie maszynowe: analiza skupień
- Algorytm K-średnich (interpretacja, ewaluacja, wyznaczanie liczby skupień)
- Algorytm grupowania hierarchicznego
- Algorytm DBSCAN
- Grupowanie dużych danych
- Uczenie maszynowe: inżynieria
- Programistyczna strona uczenia maszynowego
- Implementacja złożonych pipelinów (w tym obiektowa implementacja transformatorów)