Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

小学教材orc出错 #562

Closed
1 task done
snakeying opened this issue Jun 16, 2024 · 3 comments
Closed
1 task done

小学教材orc出错 #562

snakeying opened this issue Jun 16, 2024 · 3 comments
Labels
bug Something isn't working

Comments

@snakeying
Copy link

Issues

  • I have browsed through the Issues. 我已浏览过Issues,确定没有重复提问。

Umi-OCR version 程序版本

2.1.2

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

No response

Reproduction steps 复现步骤

尝试orc小学教材时候经常出错,一开始进度是正常的,比如一本教材有140页左右,测试3本教材基本都是前1到45~50页进度正常,然后就开始卡住,等待30分钟都没有任何新进度。

无论是默认设置还是调整其他设置都一样问题

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

test.pdf
类似这种教材

@hiroi-sora
Copy link
Owner

感谢你提供的样本。经过测试,发现该文档的第48页及以后,存在一些宽度、高度为0的图片(即错误的数据), Umi-OCR 无法处理这些不存在的图片,因此卡死。

不过,我们可以跳过这些特殊图片,来避免此Bug。

  1. 用编辑器打开 UmiOCR-data\py_src\mission\mission_doc.py
  2. 第152行,插入如下的代码:
                    # 特殊情况:图片宽高为0
                    if w2 <= 0 or h2 <= 0:
                        continue

如图所示:
image

更改完后,即可正常处理你的样例。

(不过,你的样例 本身是文字型PDF,其中的文字原本就可以复制的,一般情况下无需OCR哦)

@snakeying
Copy link
Author

( ⊙o⊙ )哇 如此快速的回复 非常感谢

经过修改后测试成功,其他两个样本也pass,证明确实是因为这个特殊图片导致的。

嗯,我也知道这个是文字型PDF,我只是想偷懒通过orc获得json,然后喂给模型。如果直接embedding的话效果不佳,模型经常会跳出限制。比如用初中的数学来解答小学问题,用高中生的词汇来写小学生英文作文。

@snakeying
Copy link
Author

再次感谢你的快速帮助,也非常感激你提供了如此棒的开源项目,加油~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants