Проект загружает и структурирует данные о вакансиях HH.ru: от сырых API-ответов до слоя Raw Data Vault 2.0.
| Документ | Содержание |
|---|---|
| 01 — Обзор и стек | Цели проекта, технологии, общий поток данных |
| 02 — Слой Raw: DDL | Схема raw, таблицы и представления, DAG init_db |
| 03 — Слой загрузки (Ingestion) | DAG'и выгрузки из API: роли, вакансии, детали, wide-таблица |
| 04 — Проектирование Data Vault 2.0 | Зачем DV, хабы/линки/спутники, DAG init_dv2 |
| 05 — Трансформация в DV | Наполнение DV из raw.vacancy_details, DAG dv_transform |
| 06 — Диаграмма слоёв данных | Схема таблиц по слоям и потоков; как запустить и посмотреть диаграмму |
- DDL — выполнить
init_db, затемinit_dv2(создание схемrawиdv, всех таблиц). - Выгрузка — по расписанию/вручную: загрузка ролей → вакансий (Москва/СПб/поиск) → деталей вакансий → постобработка wide.
- Трансформация — DAG
dv_transform: наполнение хабов, линков и спутников изraw.vacancy_details.
Диаграмму таблиц и потоков можно смотреть в 06 — Диаграмма слоёв данных (Mermaid).