Open
Description
Is there an existing issue for the same bug?
- I have checked the existing issues.
RAGFlow workspace code commit ID
RAGFlow image version
Other environment information
windows 11 pro
python 3.10.16
Actual behavior
run python deepdoc/parser/pdf_parser.py for file
About the following part of file:
The boxes it got after pdf parser done:
{
"x0": 63.666666666666664,
"x1": 131.33333333333334,
"top": 911.6666666666667,
"text": "六、开、关车",
"bottom": 924.0,
"page_number": 2,
"layout_type": "title",
"layoutno": "title-0",
"in_row": 0
},
{
"x0": 82.33333333333333,
"x1": 531.0,
"top": 931.0,
"text": "开车:先将电源开关拨向“ON”,确认锭罐方向正确后再掀绿色启动按钮。(开启主开关2—3 分",
"bottom": 943.3333333333334,
"page_number": 2,
"layout_type": "text",
"layoutno": "text-1",
"in_row": 0
},
{
"x0": 63.0,
"x1": 527.3333333333334,
"top": 951.0,
"text": "钟后按下绿色开车按钮,待锭子达速后,用手将自停探杆释放,若机器有气动断头自停装置,则锭子达速后自停探杆会自动释放)住,若机器有气动断头自停装置,则机器关车时自停探杆会自动锁定)S 指示灯(灯亮表示为S 捻)Z 指示灯(灯亮表示为Z 捻)启动按钮(绿色) 停车按钮(红色)紧急停车按钮(红色蘑菇状)电源开关(红色)",
"bottom": 1105.6666666666667,
"page_number": 2,
"layout_type": "text",
"layoutno": "text-0",
"in_row": 0
},
{
"x0": 84.33333333333333,
"x1": 530.0,
"top": 992.3333333333334,
"text": "关车:关车时先锁住下降杆,然后按下停车按钮,将电源开关拨向“OFF”。(用手将自停探杆锁",
"bottom": 1003.6666666666667,
"page_number": 2,
"layout_type": "text",
"layoutno": "text-2",
"in_row": 0
},
{
"x0": 64.66666666666667,
"x1": 159.66666666666666,
"top": 1033.6666666666667,
"text": "熟悉车头按钮和开关",
"bottom": 1045.0,
"page_number": 2,
"layout_type": "title",
"layoutno": "title-1",
"in_row": 0
},
{
"x0": 63.0,
"x1": 527.3333333333334,
"top": 1113.3333333333335,
"text": "注意:紧急停车开关和机器两侧的红色紧急停车拉绳是非正常停车装置,只有紧急情况时才可使用。按下紧急停车开关或拉动机器两侧的紧急停车拉绳后,再次启动机器前必须请有关人员排除故障并复",
"bottom": 1146.6666666666667,
"page_number": 2,
"layout_type": "text",
"layoutno": "text-6",
"in_row": 0
},
{
"x0": 63.0,
"x1": 216.33333333333334,
"top": 1153.6666666666667,
"text": "位。S 捻时退绕方向为顺时针,“P”Z 捻时退绕方向为逆时针,“q”",
"bottom": 1227.6666666666667,
"page_number": 2,
"layout_type": "text",
"layoutno": "text-0",
"in_row": 0
},
{
"x0": 64.0,
"x1": 158.66666666666666,
"top": 1175.0,
"text": "喂入筒子的退绕方向",
"bottom": 1187.0,
"page_number": 2,
"layout_type": "title",
"layoutno": "title-2",
"in_row": 0
},
Expected behavior
The boxes should like:
Steps to reproduce
python deepdoc/parser/pdf_parser.py
Additional information
No response