RAG 文档采集框架 - 自动抓取技术文档并构建向量知识库
- 通用文档站点采集框架
- Playwright 支持动态内容渲染
- HTML 转 Markdown,保留层级结构
- Chroma 向量存储 + BGE Embedding
- REST API 供 OpenCLAW 调用
- 增量更新支持
pip install -e .
playwright install chromium# 抓取飞书文档
python -m src.main crawl --site feishu
# 抓取所有站点
python -m src.main crawl --all
# 增量更新
python -m src.main update --site feishupython -m src.servercurl "http://localhost:8000/search?q=如何创建飞书机器人"参考 src/config/sites/feishu.py 创建新的站点配置。
MIT