Skip to content

LeeMeo/dev-rag

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

RAG Doc Crawler

RAG 文档采集框架 - 自动抓取技术文档并构建向量知识库

功能特性

  • 通用文档站点采集框架
  • Playwright 支持动态内容渲染
  • HTML 转 Markdown,保留层级结构
  • Chroma 向量存储 + BGE Embedding
  • REST API 供 OpenCLAW 调用
  • 增量更新支持

快速开始

安装依赖

pip install -e .
playwright install chromium

抓取文档

# 抓取飞书文档
python -m src.main crawl --site feishu

# 抓取所有站点
python -m src.main crawl --all

# 增量更新
python -m src.main update --site feishu

启动 API 服务

python -m src.server

搜索文档

curl "http://localhost:8000/search?q=如何创建飞书机器人"

配置新站点

参考 src/config/sites/feishu.py 创建新的站点配置。

License

MIT

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages