Skip to content

Latest commit

 

History

History

README.md

Документация проекта hh-data

Проект загружает и структурирует данные о вакансиях HH.ru: от сырых API-ответов до слоя Raw Data Vault 2.0.

Навигация по документации

Документ Содержание
01 — Обзор и стек Цели проекта, технологии, общий поток данных
02 — Слой Raw: DDL Схема raw, таблицы и представления, DAG init_db
03 — Слой загрузки (Ingestion) DAG'и выгрузки из API: роли, вакансии, детали, wide-таблица
04 — Проектирование Data Vault 2.0 Зачем DV, хабы/линки/спутники, DAG init_dv2
05 — Трансформация в DV Наполнение DV из raw.vacancy_details, DAG dv_transform
06 — Диаграмма слоёв данных Схема таблиц по слоям и потоков; как запустить и посмотреть диаграмму

Быстрый старт по слоям

  1. DDL — выполнить init_db, затем init_dv2 (создание схем raw и dv, всех таблиц).
  2. Выгрузка — по расписанию/вручную: загрузка ролей → вакансий (Москва/СПб/поиск) → деталей вакансий → постобработка wide.
  3. Трансформация — DAG dv_transform: наполнение хабов, линков и спутников из raw.vacancy_details.

Диаграмму таблиц и потоков можно смотреть в 06 — Диаграмма слоёв данных (Mermaid).