We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
2.1.2
win10
No response
尝试orc小学教材时候经常出错,一开始进度是正常的,比如一本教材有140页左右,测试3本教材基本都是前1到45~50页进度正常,然后就开始卡住,等待30分钟都没有任何新进度。
无论是默认设置还是调整其他设置都一样问题
test.pdf 类似这种教材
The text was updated successfully, but these errors were encountered:
修Bug:文档中存在宽高为0的图片,导致内容提取流程卡死 (#562)
e83d791
感谢你提供的样本。经过测试,发现该文档的第48页及以后,存在一些宽度、高度为0的图片(即错误的数据), Umi-OCR 无法处理这些不存在的图片,因此卡死。
不过,我们可以跳过这些特殊图片,来避免此Bug。
UmiOCR-data\py_src\mission\mission_doc.py
# 特殊情况:图片宽高为0 if w2 <= 0 or h2 <= 0: continue
如图所示:
更改完后,即可正常处理你的样例。
(不过,你的样例 本身是文字型PDF,其中的文字原本就可以复制的,一般情况下无需OCR哦)
Sorry, something went wrong.
( ⊙o⊙ )哇 如此快速的回复 非常感谢
经过修改后测试成功,其他两个样本也pass,证明确实是因为这个特殊图片导致的。
嗯,我也知道这个是文字型PDF,我只是想偷懒通过orc获得json,然后喂给模型。如果直接embedding的话效果不佳,模型经常会跳出限制。比如用初中的数学来解答小学问题,用高中生的词汇来写小学生英文作文。
再次感谢你的快速帮助,也非常感激你提供了如此棒的开源项目,加油~
No branches or pull requests
Issues
Umi-OCR version 程序版本
2.1.2
Windows version 系统版本
win10
OCR plugins Used 使用的OCR插件
No response
Reproduction steps 复现步骤
尝试orc小学教材时候经常出错,一开始进度是正常的,比如一本教材有140页左右,测试3本教材基本都是前1到45~50页进度正常,然后就开始卡住,等待30分钟都没有任何新进度。
无论是默认设置还是调整其他设置都一样问题
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
test.pdf
类似这种教材
The text was updated successfully, but these errors were encountered: