Skip to content

Latest commit

 

History

History
100 lines (71 loc) · 2.94 KB

Install_in_Windows_zh_cn.md

File metadata and controls

100 lines (71 loc) · 2.94 KB

在Windows环境下使用PDF-Extract-Kit

概述

项目开发之初默认使用环境是Linux服务器环境,因此在windows单机直接运行本项目存在一些困难,经过一段时间的踩坑后,我们总结了一些windows上可能遇到的问题, 并写下本文档。由于windows环境碎片化严重,本文档中的解决方案可能不适用于您,如有疑问,请在issue中向我们提问。

预处理

在windows正常运行本项目需要提前进行的处理

在cpu环境使用

1.创建一个虚拟环境

使用venv或conda均可, python版本建议3.10

2.安装依赖

pip install -r requirements+cpu.txt

# detectron2需要编译安装,自行编译安装可以参考https://github.com/facebookresearch/detectron2/issues/5114
# 或直接使用我们编译好的的whl包
pip install https://github.com/opendatalab/PDF-Extract-Kit/raw/main/assets/whl/detectron2-0.6-cp310-cp310-win_amd64.whl

3.修改config, 使用cpu推理

PDF-Extract-Kit/configs/model_configs.yaml:2

device: cpu

PDF-Extract-Kit/modules/layoutlmv3/layoutlmv3_base_inference.yaml:72

DEVICE: cpu

4.运行

python pdf_extract.py --pdf demo/demo1.pdf

在gpu环境使用

1.确认CUDA环境和显卡显存

2.创建一个虚拟环境

使用venv或conda均可, python版本建议3.10

3.安装依赖

pip install -r requirements+cpu.txt

# detectron2需要编译安装,自行编译安装可以参考https://github.com/facebookresearch/detectron2/issues/5114
# 或直接使用我们编译好的的whl包
pip install https://github.com/opendatalab/PDF-Extract-Kit/blob/main/assets/whl/detectron2-0.6-cp310-cp310-win_amd64.whl

# 使用gpu方案时,需要重新安装cuda版本的pytorch
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

3.修改config, 使用cuda推理

PDF-Extract-Kit/configs/model_configs.yaml:2

device: cuda

PDF-Extract-Kit/modules/layoutlmv3/layoutlmv3_base_inference.yaml:72

DEVICE: cuda

4.运行

python pdf_extract.py --pdf demo/demo1.pdf