Skip to content

Vastai/MinerU

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

0. 瀚博半导体

vastaitech

1. 官方支持

2. 测试平台

  • 以下为本指南测试使用的平台信息,供参考
    os: Ubuntu-22.04.3-LTS-x86_64
    cpu: Hygon C86-4G
    gpu: VA16 / VA1L / VA10L
    torch: 2.8.0+cpu
    torch-vacc: 1.3.3.777
    vllm: 0.11.1.dev0+gb8b302cde.d20251030.cpu
    vllm-vacc: 0.11.0.777
    driver: 00.25.12.30 d3_3_v2_9_a3_1 a76bf37 20251230
    docker: 28.1.1
    

3. 环境准备

Tip

  • 步骤3.1/3.2/3.3,可任选其一使用

3.1 从基础镜像安装

  • 获取vllm_vacc基础镜像

    sudo docker pull harbor.vastaitech.com/ai_deliver/vllm_vacc:VVI-25.12.SP2
  • 启动容器

    sudo docker run -it \
        --privileged=true \
        --shm-size=256g \
        --name vllm_service \
        --ipc=host \
        --network=host \
        harbor.vastaitech.com/ai_deliver/vllm_vacc:VVI-25.12.SP2 bash
  • 安装MinerU

    • 参考官方文档安装:README_zh-CN.md#安装-mineru

      # 启动容器
      # sudo docker exec -it vllm_service bash
      
      # 可选pypi源
      # https://mirrors.163.com/pypi/simple/
      # https://mirrors.aliyun.com/pypi/simple/
      # https://pypi.mirrors.ustc.edu.cn/simple/
      # https://pypi.tuna.tsinghua.edu.cn/simple/
      # https://mirror.baidu.com/pypi/simple
      
      # 通过源码安装MinerU
      git clone https://github.com/opendatalab/MinerU.git
      git checkout 8c4b3ef3a20b11ddac9903f25124d24ea82639b5
      pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
      
      # 或使用pip安装MinerU
      pip install -U "mineru[core]==2.7.0" -i https://mirrors.aliyun.com/pypi/simple

3.2 编译完整镜像

  • 编译镜像

    sudo docker build -t vaparser:v0.3.0 -f vacc.Dockerfile .
  • 启动容器

    sudo docker run -it \
        --privileged=true \
        --shm-size=256g \
        --name vllm_service \
        --ipc=host \
        --network=host \
        vaparser:v0.3.0 bash

3.3 拉取完整镜像

  • 获取完整镜像

    sudo docker pull harbor.vastaitech.com/ai_deliver/vaparser:v0.3.0
  • 启动容器

    sudo docker run -it \
        --privileged=true \
        --shm-size=256g \
        --name vllm_service \
        --ipc=host \
        --network=host \
        harbor.vastaitech.com/ai_deliver/vaparser:v0.3.0 bash

Note

  • vllm_vacc基础镜像内已包含torch/vllm等相关依赖
  • 截至2025/12/31VastAI已支持MinerU至最新版本2.7.0master分支8c4b3ef3
  • NVIDIA硬件下CUDA_VISIBLE_DEVICES类似;在VastAI硬件中可以使用VACC_VISIBLE_DEVICES指定可见计算卡ID,如-e VACC_VISIBLE_DEVICES=0,1,2,3
  • 需指定适当的--shm-size虚拟内存

4. MinerU功能

Note

  • 进入容器

    sudo docker exec -it vllm_service bash
  • 使用MinerU

    • 模型准备,参考官方介绍:model_source.md

    • 方式一:vlm-auto-engine/hybrid-auto-engine

      export MINERU_MODEL_SOURCE=modelscope
      
      # step1, 以`vlm-auto-engine`方式启动MinerU解析任务
      mineru -p demo/pdfs/demo1.pdf \
      -o ./output \
      -b vlm-auto-engine \
      --http-timeout 1200 \
      --tensor-parallel-size 2 \
      --enforce_eager \
      --trust-remote-code \
      --max-model-len 16384
    • 方式二:vlm-http-client/hybrid-http-client

      # step1, 启动vLLM API server
      vllm serve /root/.cache/modelscope/hub/models/OpenDataLab/MinerU2.5-2509-1.2B \
      --tensor-parallel-size 2 \
      --trust-remote-code \
      --enforce_eager \
      --port 8090 \
      --max-model-len 16384 \
      --served-model-name MinerU2.5-2509-1.2B
      
      # step2,以`vlm-http-client`方式启动MinerU解析任务
      mineru -p demo/pdfs/demo1.pdf \
      -o ./output \
      -b vlm-http-client \
      -u http://127.0.0.1:8090 \
      --http-timeout 1200

Note

  • 注意在执行任意与vllm相关命令需追加--enforce_eager参数

5. 注意事项

VastAI加速卡对MinerU的支持情况如下表所示:

使用场景 支持情况
命令行工具(mineru) pipeline 🔴
hybrid-http-client 🟢
hybride-auto-engine 🟢
vlm-auto-engine 🟢
vlm-http-client 🟢
fastapi服务(mineru-api) pipeline 🔴
hybrid-http-client 🟢
hybride-auto-engine 🟢
vlm-auto-engine 🟢
vlm-http-client 🟢
gradio界面(mineru-gradio) pipeline 🔴
hybrid-http-client 🟢
hybride-auto-engine 🟢
vlm-auto-engine 🟢
vlm-http-client 🟢
openai-server服务(mineru-openai-server) 🟢
Tensor并行 (--tensor-parallel-size/--tp) 🟢
数据并行 (--data-parallel-size/--dp) 🔴

Note

  • 🟢: 支持,运行较稳定,精度与NVIDIA GPU基本一致
  • 🟡: 支持但较不稳定,在某些场景下可能出现异常,或精度存在一定差异
  • 🔴: 不支持,无法运行,或精度存在较大差异
  • *-auto-engine模式:VastAI仅支持vLLM后端

Releases

No releases published

Packages

No packages published