Skip to content

[Bug]: DeepDoc PDF Parser result is not perfect #4933

Open
@fengjac

Description

@fengjac

Is there an existing issue for the same bug?

  • I have checked the existing issues.

RAGFlow workspace code commit ID

891ee85

RAGFlow image version

891ee85

Other environment information

windows 11 pro
python 3.10.16

Actual behavior

run python deepdoc/parser/pdf_parser.py for file

test.pdf

About the following part of file:

Image

The boxes it got after pdf parser done:

  {
    "x0": 63.666666666666664,
    "x1": 131.33333333333334,
    "top": 911.6666666666667,
    "text": "六、开、关车",
    "bottom": 924.0,
    "page_number": 2,
    "layout_type": "title",
    "layoutno": "title-0",
    "in_row": 0
  },
  {
    "x0": 82.33333333333333,
    "x1": 531.0,
    "top": 931.0,
    "text": "开车:先将电源开关拨向“ON”,确认锭罐方向正确后再掀绿色启动按钮。(开启主开关2—3 分",
    "bottom": 943.3333333333334,
    "page_number": 2,
    "layout_type": "text",
    "layoutno": "text-1",
    "in_row": 0
  },
  {
    "x0": 63.0,
    "x1": 527.3333333333334,
    "top": 951.0,
    "text": "钟后按下绿色开车按钮,待锭子达速后,用手将自停探杆释放,若机器有气动断头自停装置,则锭子达速后自停探杆会自动释放)住,若机器有气动断头自停装置,则机器关车时自停探杆会自动锁定)S 指示灯(灯亮表示为S 捻)Z 指示灯(灯亮表示为Z 捻)启动按钮(绿色) 停车按钮(红色)紧急停车按钮(红色蘑菇状)电源开关(红色)",
    "bottom": 1105.6666666666667,
    "page_number": 2,
    "layout_type": "text",
    "layoutno": "text-0",
    "in_row": 0
  },
  {
    "x0": 84.33333333333333,
    "x1": 530.0,
    "top": 992.3333333333334,
    "text": "关车:关车时先锁住下降杆,然后按下停车按钮,将电源开关拨向“OFF”。(用手将自停探杆锁",
    "bottom": 1003.6666666666667,
    "page_number": 2,
    "layout_type": "text",
    "layoutno": "text-2",
    "in_row": 0
  },
  {
    "x0": 64.66666666666667,
    "x1": 159.66666666666666,
    "top": 1033.6666666666667,
    "text": "熟悉车头按钮和开关",
    "bottom": 1045.0,
    "page_number": 2,
    "layout_type": "title",
    "layoutno": "title-1",
    "in_row": 0
  },
  {
    "x0": 63.0,
    "x1": 527.3333333333334,
    "top": 1113.3333333333335,
    "text": "注意:紧急停车开关和机器两侧的红色紧急停车拉绳是非正常停车装置,只有紧急情况时才可使用。按下紧急停车开关或拉动机器两侧的紧急停车拉绳后,再次启动机器前必须请有关人员排除故障并复",
    "bottom": 1146.6666666666667,
    "page_number": 2,
    "layout_type": "text",
    "layoutno": "text-6",
    "in_row": 0
  },
  {
    "x0": 63.0,
    "x1": 216.33333333333334,
    "top": 1153.6666666666667,
    "text": "位。S 捻时退绕方向为顺时针,“P”Z 捻时退绕方向为逆时针,“q”",
    "bottom": 1227.6666666666667,
    "page_number": 2,
    "layout_type": "text",
    "layoutno": "text-0",
    "in_row": 0
  },
  {
    "x0": 64.0,
    "x1": 158.66666666666666,
    "top": 1175.0,
    "text": "喂入筒子的退绕方向",
    "bottom": 1187.0,
    "page_number": 2,
    "layout_type": "title",
    "layoutno": "title-2",
    "in_row": 0
  },

Image

Expected behavior

The boxes should like:

Image

Steps to reproduce

python deepdoc/parser/pdf_parser.py

test.pdf

Additional information

No response

Metadata

Metadata

Assignees

No one assigned

    Labels

    🐞 bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions