Unified URL Toolkit

Unified URL Toolkit consolidates 42+ legacy URL/domain utilities into one maintainable Python toolkit.

Canonical Direction

Project strategy, sequencing, and current status live in:

docs/VISION_AND_PLAN.md

This README is an entry point, not the roadmap source of truth.

What The Toolkit Provides

URL/domain extraction from text and files
normalization and canonicalization utilities
validation helpers for URLs and domains
async URL checking
categorization/summarization analysis
specialized HTTP/content/security/cache/DOM analysis modules

Quick Start

1) Environment

uv sync --all-groups

Fallback:

python -m venv .venv
.\.venv\Scripts\python -m pip install -U pip
.\.venv\Scripts\python -m pip install -r requirements.txt
.\.venv\Scripts\python -m pip install pytest pytest-cov ruff mypy

2) Library example

from unified_url_toolkit.core.extractors import extract_urls_from_text
from unified_url_toolkit.core.normalizers import clean_domain_list

text = "Visit https://example.com and http://test.org"
urls = extract_urls_from_text(text)
domains = clean_domain_list(urls, strip_www=True, remove_duplicates=True)
print(urls)
print(domains)

3) CLI examples

uv run uut-clean-domains input.txt -o cleaned.txt --strip-www --sort
uv run uut-extract-urls . -r -e txt,md,html --csv extracted.csv
uv run uut-check-links urls.txt -o results.csv --timeout 20 --concurrency 100

Documentation Map

Strategy and roadmap: docs/VISION_AND_PLAN.md
Architecture and boundaries: docs/ARCHITECTURE.md
Usage patterns: docs/USAGE.md
Verification workflow: VERIFY.md
Contribution workflow: CONTRIBUTING.md
Migration guidance: MIGRATION.md

Package And Layout

Primary import namespace: unified_url_toolkit.

Main module families:

core/
io/
processing/
analysis/
specialized/
cli/
config/
utils/

License

MIT License. See LICENSE.

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
.dodkit		.dodkit
.github		.github
analysis		analysis
cli		cli
config		config
core		core
docs		docs
examples		examples
io		io
processing		processing
specialized		specialized
src/unified_url_toolkit		src/unified_url_toolkit
tests		tests
utils		utils
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
DoD_CHECKLIST.md		DoD_CHECKLIST.md
LICENSE		LICENSE
MIGRATION.md		MIGRATION.md
PHASE2_COMPLETION.md		PHASE2_COMPLETION.md
README.md		README.md
SECURITY.md		SECURITY.md
SURGERY_REPORT.md		SURGERY_REPORT.md
VERIFY.md		VERIFY.md
__init__.py		__init__.py
domains.txt		domains.txt
justfile		justfile
project-tree-report.txt		project-tree-report.txt
project_tree.py		project_tree.py
pyproject.toml		pyproject.toml
urls_extract_20260308_054118.txt		urls_extract_20260308_054118.txt
urls_extract_20260308_054613.txt		urls_extract_20260308_054613.txt
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Unified URL Toolkit

Canonical Direction

What The Toolkit Provides

Quick Start

1) Environment

2) Library example

3) CLI examples

Documentation Map

Package And Layout

License

About

Uh oh!

Releases 1

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Unified URL Toolkit

Canonical Direction

What The Toolkit Provides

Quick Start

1) Environment

2) Library example

3) CLI examples

Documentation Map

Package And Layout

License

About

Topics

Resources

License

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages