Skip to content

Latest commit

 

History

History

README.md

分块和定位工具

本项目提供文档分块(Chunk)和定位功能,可在 Chunk 中添加坐标与所属页面信息,并根据内容返回构成该 Chunk 的连续 block 的边界框(bbox)列表。
匹配时采用 RapidFuzz 找出最相似的 block。


分块依赖

  • tiktoken
  • markdown

定位依赖

  • rapidfuzz

推荐使用国内镜像加快安装速度:

pip install tiktoken markdown rapidfuzz -i https://mirrors.aliyun.com/pypi/simple/

使用示例